一种异常用电样本清洗及行为识别方法与流程

专利2022-05-09 89

本发明属于电力系统用电异常检测领域，尤其是涉及一种异常用电样本清洗及行为识别方法。

背景技术：

电力系统的输配电损失主要源于技术损失和非技术损失，技术损失由电力系统中各器件作用的功率损耗组成，非技术损失主要由用户侧异常用电行为造成的损失。研究表明，因用户的异常用电行为在全国范围内造成的损失达数十亿人民币，而在中国电力市场化改革不断深入的环境下，电力企业需自担风险、自负盈亏，用电异常行为管理将直接决定电力企业的利润，因此异常用电行为检测具有十分重要的研究意义。

随着智能电表在电力系统中的普及率不断上升，传统的异常用电行为如暴力破坏电表、私自改装等大量减少，用户逐渐通过网络篡改、物理攻击等方式达到降低电费的目的，这对用户的异常用电行为检测带来了新的挑战：预处理阶段数据样本具有不一致性，存在大量的无效样本，导致正常样本与异常样本的提取较难；行为识别过程中，由于正常样本远远多于异常样本，采用传统的人工智能方法如决策树、支持向量机、神经网络等容易陷入局部最优解的情况，降低用电异常行为识别的准确度。

技术实现要素：

本发明主要是解决现有技术所存在的技术问题：提供一种样本提取的方式，直接面向数据库对样本进行数据清洗，将有效样本和无效样本进行分离，达到提高数据质量的目的。

本发明还有一目的是解决现有技术所存在的技术问题：提供一种行为识别的方法，考虑有效样本中正常样本、异常样本数量的不平衡，将其混合进行识别，符合一定条件时输出并进行标记区分，提高异常样本识别的精度和准确度。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种异常用电样本清洗及行为识别方法，其特征在于，包括以下步骤：

步骤1：通过用电信息营销系统采集用户日采样数据，构造面向搭载hplc智能电表的数据样本；

步骤2：在数据样本中根据编号的排序连续性、数据完整性的有效性、相序的次序性进行筛选过滤无效样本，得到有效样本；

步骤3：根据有效样本中用电信息的缺值、最值和波动阈值进行筛选区分异常样本和正常样本，将正常样本、异常样本混合形成混合样本；

步骤4：在训练样本中结合样本特征参数与异常样本占比标签确定混合条件参数，满足不等式约束条件时形成样本集合权值、集合维度权值，在验证样本中结合样本特征参数与正常样本占比标签、不等式约束条件验证样本集合权值、集合维度权值并形成分割曲线，通过待测样本中样本集合权值、集合维度权值落点位置实现正常样本、异常样本的区分；

作为优选，步骤1所述数据样本为：

ds＝[dsl]

dsl＝{snl,dil,eil,psl}

snl＝{uidl,mcidl}

eil＝{il,ul,pl}

l∈[1,m]

其中，l代表数据样本中的用户个数，m代表数据样本的用户个数上限，ds代表所有用户的数据样本集合，dsl代表第l个用户的数据样本，snl表示第l个用户的编号，dil表示第l个用户的数据完整性，eil表示第l个用户的用电信息，psl表示第l个用户的相序，uidl表示第l个用户的用户编号，mcidl表示第l个用户对应的计量线路编号，il表示第l个用户的电流，ul表示第l个用户的电压，pl表示第l个用户的功率。

作为优选，步骤2所述根据编号的排序连续性进行筛选过滤为：第l个用户的用户编号uidl不能重复出现在不同计量线路编号mcidl中，否则视dsl为无效样本。

步骤2所述根据数据完整性的有效性进行筛选过滤为：第l个用户的数据完整性dil字段数据分布具有一致性，否则视dsl为无效样本。

步骤2所述根据相序的次序性进行筛选过滤为：第l个用户的相序psl字段数据按照a相、b相、c相、零序的次序排列，否则视dsl为无效样本。

从数据样本ds中滤除视为无效样本dsl，形成有效样本vs；

vs＝[vsm]

m∈[1,n]

n≤m

其中，vs代表所有的有效样本集合，vsm代表第m个有效的用户样本，m代表有效样本个数，n代表有效样本数量上限。

作为优选，步骤3所述有效样本vs中用电信息具体为：

eim,i,j＝{im,i,j、um,i,j、pm,i,j}；

其中，im,i,j代表第m个用户在i时刻进行j次采样得到的电流，um,i,j代表第m个用户在i时刻进行j次采样得到的电压，pm,i,j代表第m个用户在i时刻进行j次采样得到的功率；

其中，i代表用户日采样数据的单位时间个数，j代表单位时间的采样次数；

步骤3所述根据用电信息的缺值进行筛选区分为：第m个用户电流im,i,j、电压im,i,j、功率pm,i,j中在i时刻采样次数与j相同，否则视vsm为异常样本；

步骤3所述根据用电信息最值进行筛选区分为：第m个用户功率pm,i,j最小值与最大值具有非负性，否则视vsm为异常样本；

步骤3所述根据用电信息波动阈值进行筛选区分为：第m个用户im,i,j、um,i,j、pm,i,j在采样过程中阶段性平稳变化，否则视vsm为异常样本；

从有效样本vs中统计视为vsm的异常样本，形成异常样本dataa，剩余的有效样本作为正常样本datab。

dataa＝[dataao]

datab＝[databp]

o∈[1,o]

p∈[1,p]

o&p≤m

其中，dataa代表所有的异常样本集合，o代表异常样本的个数，dataao代表第o个异常样本，o代表异常样本数量上限，datab代表所有的正常样本集合，p代表正常样本的个数，databp代表第p个正常样本，p代表正常样本数量上限。

步骤3所述将正常样本、异常样本混合为：

引入样本比值ratio缩小进行训练时异常样本dataa与正常样本datab样本数量差距，并形成混合样本data。

data＝ratio*num(datab) (1-ratio)*num(dataa)

其中，num(dataa)代表异常样本的数量，num(datab)代表正常样本的数量，ratio代表样本比值，data代表混合样本，t1代表训练样本，t2代表验证样本。

作为优选，步骤4所述的样本划分为：在样本data通过随机抽样的方式形成训练样本t1，获取其均值b1、特征向量c1和特征值c2，并对特征值c2采用对角矩阵扩充的方式形成特征矩阵c3。

t1＝random(data)

b1＝average(t1)

[c1,c2]＝characteristic(t1)

c3＝[|c2|]

其中，t1代表从样本data随机选择任意数量样本形成的训练样本，b1代表样本t1的均值，c1、c2是对样本t1进行特征变化后获得的特征参数，c1代表样本t1的特征向量，c2代表样本t1的特征值，c3为扩充后的特征值矩阵。

步骤4所述的样本划分为：在样本data、t1的基础上确定异常样本占比标签d1、异常样本-剩余样本占比标签d2，通过混合条件、二次范式求解及不等式约束关系确定适用于样本区分的平面分割参数样本集合权值e1、集合维度权值e2。

f＝||e1||·e2·x e3

其中，d1代表样本t1在满足混合条件f与样本data的异常样本占比标签，d2代表剩余样本在满足混合条件f与样本data的异常样本-剩余样本占比标签，混合条件f与权值、输入样本相关，x代表数据来源为样本t1时当前输入样本，e1代表样本集合权值，e2代表集合维度权值，e3代表偏置相，当满足约束条件时输出e1、e2。

步骤4所述的样本验证为：随机从有效样本vs中选取样本形成混合样本，即在样本data中排除样本t1形成样本t2。特别的，样本t1输出权值e1、e2必须满足不等式约束条件，才能从样本data中进行排除。

t2＝random(data)

其中，t2代表从样本data随机选择任意数量样本形成的验证样本。

步骤4所述的样本验证为：在样本data、t2的基础上确定正常样本占比标签d3、正常样本-剩余样本占比标签d4，并通过对约束条件的调整实现样本验证的互补，当样本集合权值e1、集合维度权值e2满足不等式约束条件则认为e1、e2为最终权值。

f^；＝||e1||·e2·x^； e3

其中，d3代表样本t2在满足混合条件f^；与样本data的正常样本占比标签，d4代表剩余样本在满足混合条件f^；与样本data的正常样本-剩余样本占比标签，混合条件f^；与权值、输入样本相关，x^；代表数据来源为样本t2时当前输入样本，当满足约束条件时则认为e1、e2为最终权值；

步骤4所述的样本识别为：通过最终权值e1、e2构建分割曲线，获取待测样本的样本集合权值e1^*、集合维度权值e2^*权值，(e1^*,e2^*)的落点在曲线左侧则为正常样本，落点在曲线右侧则为异常样本，实现正常样本、异常样本的区分。

因此，本发明具有以下优点：降低筛选样本的难度，从数据库获取的样本通过字段的方式剔除无效样本；准确区分正常样本和异常样本，通过缺值、最值、阈值三种方式将正常样本、异常样本区分开；精准识别正常样本和异常样本，通过引入样本比值缩小正常样本与异常样本数目上的差距，通过定义不同类型的样本标签将样本集合权值、集合维度权值与约束条件整合，保证约束条件用于样本分析的合理性。

附图说明

图1：是本发明的实施主要流程图。

图2：是本发明的异常样本与正常样本混合示范图。

图3：是本发明的异常样本示范图。

图4：是本发明的正常样本示范图。

图5：是本发明样本提取的流程图。

图6：是本发明行为识别的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

如图1所示，本发明主要包括样本提取环节和行为识别环节实现异常用电样本清洗及行为识别，其中样本提取环节作为数据预处理阶段，直接面向数据库对样本进行数据清洗，将有效样本和无效样本进行分离，达到提高数据质量的目的；行为识别环节作为数据分析阶段，考虑有效样本中正常样本、异常样本数量的不平衡，将其混合进行识别，符合一定条件时输出并进行标记区分，提高异常样本识别的精度和准确度。

本发明以数据库中单独月份样本为例进行分析，如图2所示，可以发现若不进行数据清洗，无法明显区分有效样本和无效样本，不利于数据的分析；如图3所示，对数据库的样本进行数据清洗后，可以发现异常样本具有一致性，本发明主要将用电负荷出现负向变化、波动、突变、缺值视为异常样本；如图4所示，对数据库的样本进行数据清洗后，可以发现正常样本具有一致性，本发明主要将用电负荷出现平稳变化及平稳波动视为正常样本。

一种异常用电样本清洗及行为识别方法，其特征在于，包括以下步骤：

步骤1：通过用电信息营销系统采集用户日采样数据，构造面向搭载hplc智能电表的数据样本。

步骤1所述数据样本为：

ds＝[dsl]

dsl＝{snl,dil,eil,psl}

snl＝{uidl,mcidl}

eil＝{il,ul,pl}

l∈[1,m]

步骤2：在数据样本中根据编号的排序连续性、数据完整性的有效性、相序的次序性进行筛选过滤无效样本，得到有效样本，如图5所示。

步骤2所述根据编号的排序连续性进行筛选过滤为：第l个用户的用户编号uidl不能重复出现在不同计量线路编号mcidl中，否则视dsl为无效样本。

步骤2所述根据数据完整性的有效性进行筛选过滤为：第l个用户的数据完整性dil字段数据分布具有一致性，否则视dsl为无效样本。

步骤2所述根据相序的次序性进行筛选过滤为：第l个用户的相序psl字段数据按照a相、b相、c相、零序的次序排列，否则视dsl为无效样本。

从数据样本ds中滤除视为无效样本dsl，形成有效样本vs；

vs＝[vsm]

m∈[1,n]

n≤m

其中，vs代表所有的有效样本集合，vsm代表第m个有效的用户样本，m代表有效样本个数，n代表有效样本数量上限。

步骤3：根据有效样本中用电信息的缺值、最值和波动阈值进行筛选区分异常样本和正常样本，将正常样本、异常样本混合形成混合样本，如图6所示；

步骤3所述有效样本vs中用电信息具体为：eim,i,j＝{im,i,j、um,i,j、pm,i,j}；

其中，i代表用户日采样数据的单位时间个数，j代表单位时间的采样次数；

步骤3所述根据用电信息的缺值进行筛选区分为：第m个用户电流im,i,j、电压im,i,j、功率pm,i,j中在i时刻采样次数与j相同，否则视vsm为异常样本；特别的，在有效样本数据完整的前提下，一旦出现电流、电压、功率采样次数不一致，存在采样值丢失的情况，则代表用户用电信息异常。

步骤3所述根据用电信息最值进行筛选区分为：第m个用户功率pm,i,j最小值与最大值具有非负性，否则视vsm为异常样本；特别的，本发明提出小值与最大值具有非负性，否则出现智能电表出现反转、用户通过物理干扰的方式进行非法用电的情况，即用户用电信息异常。

步骤3所述根据用电信息波动阈值进行筛选区分为：第m个用户im,i,j、um,i,j、pm,i,j在采样过程中阶段性平稳变化，否则视vsm为异常样本；特别的，本发明提出电流、电压、功率呈现阶段性平稳变化的规律，否则出现用户通过非法窃电的方式反复实施异常用电行为，即用电信息异常。

步骤3从缺值、最值、波动阈值三个方面对用电信息进行筛选，符合任一方面特征即认定为异常样本，不符合任一方面特征即认定为正常样本，即从有效样本vs中统计视为vsm的异常样本，形成异常样本dataa，剩余的有效样本作为正常样本datab。

dataa＝[dataao]

datab＝[databp]

o∈[1,o]

p∈[1,p]

o&p≤m

步骤3所述将正常样本、异常样本混合为：引入样本比值ratio缩小进行训练时异常样本dataa与正常样本datab样本数量差距，并形成混合样本data。

data＝ratio*num(datab) (1-ratio)*num(dataa)

其中，num(dataa)代表异常样本的数量，num(datab)代表正常样本的数量，ratio代表样本比值，data代表混合样本，t1代表训练样本，t2代表验证样本。特别的，本发明提出通过引入样本比值ratio缩小异常样本dataa与正常样本datab数量差距。

步骤4所述的样本划分为：在样本data通过随机抽样的方式形成训练样本t1，获取其均值b1、特征向量c1和特征值c2，并对特征值c2采用对角矩阵扩充的方式形成特征矩阵c3。

t1＝random(data)

b1＝average(t1)

[c1,c2]＝characteristic(t1)

c3＝[|c2|]

其中，t1代表从样本data随机选择任意数量样本形成的训练样本，b1代表样本t1的均值，c1、c2是对样本t1进行特征变化后获得的特征参数，c1代表样本t1的特征向量，c2代表样本t1的特征值，c3为扩充后的特征值矩阵。特别的，样本t1中异常样本占比为60％。

f＝||e1||·e2·x e3

t2＝random(data)

其中，t2代表从样本data随机选择任意数量样本形成的验证样本。

f^；＝||e1||·e2·x^； e3

其中，d3代表样本t2在满足混合条件f^；与样本data的正常样本占比标签，d4代表剩余样本在满足混合条件f^；与样本data的正常样本-剩余样本占比标签，混合条件f^；与权值、输入样本相关，x^；代表数据来源为样本t2时当前输入样本，当满足约束条件时则认为e1、e2为最终权值。特别的，样本t2中正常样本占比为60％，且本发明采用引入正常样本进行验证，保证权值选择的合理性。

以上描述了本发明的基本原理和实施过程，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的结构关系及原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征：

1.一种异常用电样本清洗及行为识别方法，其特征在于，包括以下步骤：

步骤1：通过用电信息营销系统采集用户日采样数据，构造面向搭载hplc智能电表的数据样本；

步骤2：在数据样本中根据编号的排序连续性、数据完整性的有效性、相序的次序性进行筛选过滤无效样本，得到有效样本；

步骤3：根据有效样本中用电信息的缺值、最值和波动阈值进行筛选区分异常样本和正常样本，将正常样本、异常样本混合形成混合样本；

2.根据权利要求1所述的异常用电样本清洗及行为识别方法，其特征在于，

步骤1所述数据样本为：

ds＝[dsl]

dsl＝{snl,dil,eil,psl}

snl＝{uidl,mcidl}

eil＝{il,ul,pl}

l∈[1,m]

3.根据权利要求1所述的异常用电样本清洗及行为识别方法，其特征在于，

步骤2所述根据编号的排序连续性进行筛选过滤为：第l个用户的用户编号uidl不能重复出现在不同计量线路编号mcidl中，否则视dsl为无效样本；

步骤2所述根据数据完整性的有效性进行筛选过滤为：第l个用户的数据完整性dil字段数据分布具有一致性，否则视dsl为无效样本；

步骤2所述根据相序的次序性进行筛选过滤为：第l个用户的相序psl字段数据按照a相、b相、c相、零序的次序排列，否则视dsl为无效样本；

从数据样本ds中滤除视为无效样本dsl，形成有效样本vs；

vs＝[vsm]

m∈[1,n]

n≤m

其中，vs代表所有的有效样本集合，vsm代表第m个有效的用户样本，m代表有效样本个数，n代表有效样本数量上限。

4.根据权利要求1所述的异常用电样本清洗及行为识别方法，其特征在于，

步骤3所述有效样本vs中用电信息具体为：

eim,i,j＝{im,i,j、um,i,j、pm,i,j}；

其中，i代表用户日采样数据的单位时间个数，j代表单位时间的采样次数；

步骤3所述根据用电信息的缺值进行筛选区分为：第m个用户电流im,i,j、电压im,i,j、功率pm,i,j中在i时刻采样次数与j相同，否则视vsm为异常样本；

步骤3所述根据用电信息最值进行筛选区分为：第m个用户功率pm,i,j最小值与最大值具有非负性，否则视vsm为异常样本；

步骤3所述根据用电信息波动阈值进行筛选区分为：第m个用户im,i,j、um,i,j、pm,i,j在采样过程中阶段性平稳变化，否则视vsm为异常样本；

从有效样本vs中统计视为vsm的异常样本，形成异常样本dataa，剩余的有效样本作为正常样本datab；

dataa＝[dataao]

datab＝[databp]

o∈[1,o]

p∈[1,p]

o&p≤m

其中，dataa代表所有的异常样本集合，o代表异常样本的个数，dataao代表第o个异常样本，o代表异常样本数量上限，datab代表所有的正常样本集合，p代表正常样本的个数，databp代表第p个正常样本，p代表正常样本数量上限；

步骤3所述将正常样本、异常样本混合为：

引入样本比值ratio缩小进行训练时异常样本dataa与正常样本datab样本数量差距，并形成混合样本data；

data＝ratio*num(datab) (1-ratio)*num(dataa)

其中，num(dataa)代表异常样本的数量，num(datab)代表正常样本的数量，ratio代表样本比值，data代表混合样本，t1代表训练样本，t2代表验证样本。

5.根据权利要求1所述的异常用电样本清洗及行为识别方法，其特征在于，

步骤4所述的样本划分为：在样本data通过随机抽样的方式形成训练样本t1，获取其均值b1、特征向量c1和特征值c2，并对特征值c2采用对角矩阵扩充的方式形成特征矩阵c3；

t1＝random(data)

b1＝average(t1)

[c1,c2]＝characteristic(t1)

c3＝[|c2|]

其中，t1代表从样本data随机选择任意数量样本形成的训练样本，b1代表样本t1的均值，c1、c2是对样本t1进行特征变化后获得的特征参数，c1代表样本t1的特征向量，c2代表样本t1的特征值，c3为扩充后的特征值矩阵；

步骤4所述的样本划分为：在样本data、t1的基础上确定异常样本占比标签d1、异常样本-剩余样本占比标签d2，通过混合条件、二次范式求解及不等式约束关系确定适用于样本区分的平面分割参数样本集合权值e1、集合维度权值e2；

f＝||e1||·e2·x e3

步骤4所述的样本验证为：随机从有效样本vs中选取样本形成混合样本，即在样本data中排除样本t1形成样本t2；特别的，样本t1输出权值e1、e2必须满足不等式约束条件，才能从样本data中进行排除；

t2＝random(data)

其中，t2代表从样本data随机选择任意数量样本形成的验证样本；

步骤4所述的样本验证为：在样本data、t2的基础上确定正常样本占比标签d3、正常样本-剩余样本占比标签d4，并通过对约束条件的调整实现样本验证的互补，当样本集合权值e1、集合维度权值e2满足不等式约束条件则认为e1、e2为最终权值；

f^；＝||e1||·e2·x^； e3

技术总结
本发明提出了一种异常用电样本清洗及行为识别方法。本发明通过用电信息营销系统采集用户日采样数据，构造面向搭载HPLC智能电表的数据样本；在数据样本中根据编号的排序连续性、数据完整性的有效性、相序的次序性进行筛选过滤无效样本得到有效样本；根据有效样本中用电信息的缺值、最值和波动阈值进行筛选区分异常样本和正常样本，形成包括训练样本与验证样本的混合样本；在训练样本中确定混合条件参数，满足不等式约束条件时形成样本集合权值、集合维度权值，在验证样本中根据不等式约束条件验证样本集合权值、集合维度权值并形成分割曲线，通过待测样本中样本集合权值、集合维度权值落点位置实现正常样本、异常样本的区分。

技术研发人员：龚立;王先培;田猛;姚鸿泰;饶佳豪
受保护的技术使用者：武汉大学
技术研发日：2021.04.22
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-9167.html

专利

最新回复(0)