一种解决具有缺失且不平衡数据的模糊信息分解方法与流程

专利2022-05-09  74



1.本发明涉及数据信息的技术领域,特别涉及一种解决具有缺失且不平衡数据的模糊信息分解方法。


背景技术:

2.现实生活中的数据学习有两个大的挑战:不完整的和不平衡的数据。不完整数据是指当前观测的某些数据值没有被存储,存在丢失。例如,对一个胰腺癌手术患者的五年生存率回访过程中,可能由于搬家,死亡等各类因素导致我们与患者失联,从而失去了患者某些身体指标数据的获取。此外,当一个类的样本数明显多于至少一个其他类的样本数时,类不平衡就会出现在训练集中。例如,在qq垃圾邮件检测中,少量的垃圾邮件样本与大量的合法邮件会形成鲜明对比。由于类不平衡,传统的机器学习对多数类样本的分类有着非常高的整体精度,而对少数类样本的识别分类却不尽人意,而往往我们需要的是对少数类样本的精确识别。
3.目前,有研究者对具有缺失的不平衡数据的恢复技术进行了比较研究,特别是针对具有大量缺失数据的研究。研究在对数据进行冗余特征删除、不一致数据识别和异常值分析后,采用k

means、c4.5、人工神经网络和bayesian四种分类算法来检验分类性能。他们的实验结果证实,在一个不平衡的数据集中缺失数据的存在将会显著影响数据挖掘算法的性能。
4.为了解决上述问题,研究人员已经提出了一些技术来解决每个问题。然而,却鲜有单一的技术可以同时解决这两个问题。即便有组合的方法去解决这类问题,但简单的组合方法不能准确地对具有缺失的不平衡数据进行分类。
5.相似的实现方案:
6.1)利用模糊隶属度函数将数据映射到[0,1]区间内:
[0007]
μ:x
×
u

[0,1]即(x
i
,u
s
)

μ(x
i
,u
s
)
[0008]
2)通过模糊隶属度函数计算每个样本的隶属度:
[0009][0010]
3)计算每个观测值对缺失估计的贡献:
[0011]
m
is
=μ(x
i
,u
s
)
×
x
i
,i∈d
[0012]
4)使用信息分解方法补全缺失数据:
[0013][0014]
其中表示每列观测数据的平均值。对于上述算法,我们可以发现一个明显的缺
陷,即当||x
i

u
s
||≤h时隶属度为0,而隶属度为0时缺失数据便用观测数据的平均值来表示,这极大的影响了每个观测数据对缺失估计的贡献程度。


技术实现要素:

[0015]
针对现有技术中存在的不足之处,本发明的目的是提供一种解决具有缺失且不平衡数据的模糊信息分解方法,基于模糊的信息分解方法来同时解决数据缺失与不平衡这两个问题。为了实现根据本发明的上述目的和其他优点,提供了一种解决具有缺失且不平衡数据的模糊信息分解方法,包括以下几个步骤:
[0016]
s1、假设列向量x有m个元素,并且该列向量有t个缺失的元素;
[0017]
s2、设置一集合表示所述步骤s1中所有的观测值,根据集合中的最大值与最小值来定义一个区间;
[0018]
s3、通过s2中的区间与缺失值t的数量来定义一个衡量观测值权重的步长;
[0019]
s4、根据缺失值t的个数将步骤s2划分为t个小区间;
[0020]
s5、利用剩余的(m

t)个观测值对缺失值的贡献程度来恢复t个缺失数据;
[0021]
s6、利用上述步骤求得的每个观测值隶属度对缺失值的贡献进行估计,并利用信息分解技术对第s个缺失值进行估计恢复。
[0022]
优选的,所述步骤s1中x列向量为x=(x1,...,none,...,x
i
,...,none,...,none,...,x
m
)
t
,其中x
i
表示没有缺失的观测值,none表示缺失的元素,因此该列向量中存在t个缺失的元none,t表示向量的转置。
[0023]
优选的,所述步骤s2中集合为d,且d={i|x
i
≠none,i=1,2,...,m},其中集合d的定义域中上界a为观测值中的最小值,下界b为观测值中的最大值,即可得一区间i=[a,b]。
[0024]
优选的,通过步骤s3我们可以得到步长h,h=(b

a)/t,区间i便被划分为t个权重的小区间,其中第s个区间可表示为i
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t

1。
[0025]
优选的,所述步骤s6中,取出每个小区间i
s
的中点作为后续计算的值,即u={u1,u2,...,u
t
},其中,u
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t,u
s

u
s
‑1≡h,且u
s
为区间i
s
的中点。
[0026]
优选的,通过利用剩余的(m

t)个观测值对缺失值的贡献程度进行恢复t个缺失的数据,此处也是本技术的核心部分,使得解决观测值与u
s
的距离大于步长h时用0来表示其隶属度,改进如下所示:
[0027][0028]
其中并且的取值范围在之间,的取值范围在
之间,因此整个隶属度函数μ(x
i
,u
s
)的取值范围在(0,1]之间。该技术采用了更为科学的表达式来衡量观测值的权重,即当||x
i

u
s
||>h时,其权重的取值范围在之间,隶属度对每个观测值对缺失值的贡献进行估计,其计算公式如下所示:
[0029]
m
is
=μ(x
i
,u
s
)
×
x
i
,i∈d,其中,m
is
表示第i个观测值对第s个缺失值的权重贡献值;利用信息分解技术对第s个缺失值进行估计恢复,其计算公式如下所示:
[0030][0031]
本发明与现有技术相比,其有益效果是:通过基于模糊的信息分解方法来同时解决数据缺失与不平衡这两个问题,在加权步骤中,利用模糊隶属度函数产生的权重来量化观测数据对缺失估计的贡献,在恢复步骤中,通过考虑观测数据的不同贡献来估计缺失值,本方法改进后克服了一些观测值在模糊隶属度函数中以平均值来量化观测数据对缺失估计贡献的缺陷,从而提高了缺失信息估计准确度和分类精度。
附图说明
[0032]
图1为根据本发明的解决具有缺失且不平衡数据的模糊信息分解方法的基于改进的模糊信息分解处理流程图。
具体实施方式
[0033]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]
参照图1,一种解决具有缺失且不平衡数据的模糊信息分解方法,包括以下步骤:
[0035]
s1、假设列向量x有m个元素,并且该列向量有t个缺失的元素;
[0036]
s2、设置一集合表示所述步骤s1中所有的观测值,根据集合中的最大值与最小值来定义一个区间;
[0037]
s3、通过s2中的区间与缺失值t的数量来定义一个衡量观测值权重的步长;
[0038]
s4、根据缺失值t的个数将步骤s2划分为t个小区间;
[0039]
s5、利用剩余的(m

t)个观测值对缺失值的贡献程度来恢复t个缺失数据;
[0040]
s6、利用上述步骤求得的每个观测值隶属度对缺失值的贡献进行估计,并利用信息分解技术对第s个缺失值进行估计恢复。进一步的,所述步骤s1中x列向量为x=(x1,...,none,...,x
i
,...,none,...,none,...,x
m
)
t
,其中x
i
表示没有缺失的观测值,none表示缺失的元素,因此该列向量中存在t个缺失的元none,t表示向量的转置。
[0041]
进一步的,所述步骤s2中集合为d,且d={i|x
i
≠none,i=1,2,...,m},其中集合d的定义域中上界a为观测值中的最小值,下界b为观测值中的最大值,即
可得一区间i=[a,b]。
[0042]
进一步的,所述步骤s3中,所述所有观测数据权重贡献的估计为h,h=(b

a)/t,区间i便被划分为t个以确定权重的小区间,其中第s个区间可表示为i
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t

1。
[0043]
进一步的,所述步骤s6中,取出每个每个小区间i
s
的中点作为后续计算的值,即u={u1,u2,...,u
t
},其中,u
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t,u
s

u
s
‑1≡h,且u
s
为区间i
s
的中点。
[0044]
为了恢复t个缺失的数据,我们利用剩余的(m

t)个观测值对缺失值的贡献程度进行恢复,此处也是本技术的核心部分,解决了当观测值与u
s
的距离大于步长h时用0来表示其隶属度,具体改进如下所示:
[0045][0046]
其中并且的取值范围在之间,的取值范围在之间,因此整个隶属度函数μ(x
i
,u
s
)的取值范围在(0,1]之间。该技术采用了更为科学的表达式来衡量观测值的权重,即当||x
i

u
s
||>h时,其权重的取值范围在之间而不是仅仅用0来取代。虽然这个区间的取值范围很小,但它可以让每个观测数据反映恢复数据权值的贡献,特别是在区间边缘附近的观测。
[0047]
接着我们利用上述方法求得的隶属度对每个观测值对缺失值的贡献进行估计,其计算公式如下所示:
[0048]
m
is
=μ(x
i
,u
s
)
×
x
i
,i∈d
[0049]
其中,mi
s
表示第i个观测值对第s个缺失值的权重贡献值。
[0050]
最后我们利用信息分解技术对第s个缺失值进行估计恢复,其计算公式如下所示:
[0051][0052]
改进后的方法使得每一个观测数据经新的隶属度函数处理后都可以得到一个合理的权重,而不是用平均值代替权重为0的观测值。因此该技术既简洁又合理。
[0053]
值得注意的是,该技术不仅可以恢复丢失的数据,还可以合成新的样本。对于少数类x,其具体可以通过以下两个步骤恢复和合成数据:
[0054]
第一步,我们根据事先设置的平衡率计算出我们需要合成的样本数量,假设需要合成l个样本,若第i列向量x
i
有t
i
个缺失值,那么现在需要合成的缺失值个数为(t
i
l)个;
[0055]
第二步我们再采用上述技术来合成列向量x
i
中的(t
i
l)个缺失值。
[0056]
表1 5%缺失率下改进前后实验对比结果
[0057][0058]
表2 10%缺失率下改进前后实验对比结果
[0059][0060]
表3 20%缺失率下改进前后实验对比结果
[0061][0062]
表4 30%缺失率下改进前后实验对比结果
[0063][0064]
表5 40%缺失率下改进前后实验对比结果
[0065][0066]
目前,该方法已在一个法律数据集和七个uci公共数据集上进行了实验,其分类精度、f

score、g

mean指标与原技术相比有着明显的提升。表1至表5展示了不同缺失率下算法的改进前后各项指标对比。
[0067]
上述方法可从二分类问题扩展到多分类问题中去。在多分类问题中,需要先确立样本数最多的类为多类,再用多类样本数乘以平衡率与其他类进行比较,样本数低于该值
的类均为少数类,再分别对每个少数类进行缺失值的补全和样本的合成,求解方法与二分类方法一致。
[0068]
这里说明的设备数量和处理规模是用来简化本发明的说明的,对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
[0069]
尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

技术特征:
1.一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,包括以下几个步骤:s1、假设列向量x有m个元素,并且该列向量有t个缺失的元素;s2、设置一集合表示所述步骤s1中所有的观测值,根据集合中的最大值与最小值来定义一个区间;s3、通过s2中的区间与缺失值t的数量来定义一个衡量观测值权重的步长;s4、根据缺失值t的个数将步骤s2划分为t个小区间;s5、利用剩余的(m

t)个观测值对缺失值的贡献程度来恢复t个缺失数据;s6、利用上述步骤求得的每个观测值隶属度对缺失值的贡献进行估计,并利用信息分解技术对第s个缺失值进行估计恢复。2.如权利要求1所述的一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,所述步骤s1中x列向量为x=(x1,...,none,...,x
i
,...,none,...,none,...,x
m
)
t
,其中x
i
表示没有缺失的观测值,none表示缺失的元素,因此该列向量中存在t个缺失的元none,t表示向量的转置。3.如权利要求1所述的一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,所述步骤s2中集合为d,且d={i|x
i
≠none,i=1,2,...,m},其中集合d的定义域中上界a为观测值中的最小值,下界b为观测值中的最大值,即可得一区间i=[a,b]。4.如权利要求1所述的一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,通过步骤s3我们可以得到步长h,h=(b

a)/t,区间i便被划分为t个衡量权重的小区间,其中第s个区间可表示为i
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t

1。5.如权利要求1所述的一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,所述步骤s6中,取出每个每个小区间i
s
的中点作为后续计算的值,即u={u1,u2,...,u
t
},其中,u
s
=[a (s

1)
×
h,a s
×
h],s=1,2,...,t,u
s

u
s
‑1≡h,且u
s
为区间i
s
的中点。6.如权利要求1

5所述的一种解决具有缺失且不平衡数据的模糊信息分解方法,其特征在于,通过利用剩余的(m

t)个观测值对缺失值的贡献程度进行恢复t个缺失的数据,此处也是本技术的核心部分,使得解决观测值与u
s
的距离大于步长h时用0来表示其隶属度,改进如下所示:其中并且的取值范围在之间,的取值范围在之间,因此整个隶属度函数μ(x
i
,u
s
)的取值范围在(0,1]之间。该技术采用了更为科学的表
达式来衡量观测值的权重,即当||x
i

u
s
||>h时,其权重的取值范围在之间,隶属度对每个观测值对缺失值的贡献进行估计,其计算公式如下所示:m
is
=μ(x
i
,u
s
)
×
x
i
,i∈d,其中,m
is
表示第i个观测值对第s个缺失值的权重贡献值;利用信息分解技术对第s个缺失值进行估计恢复,其计算公式如下所示:
技术总结
本发明公开了一种解决具有缺失且不平衡数据的模糊信息分解方法,包括以下步骤:S1、假设列向量x有m个元素,并且该列向量有t个缺失的元素;S2、设置一集合表示所述步骤S1中所有的观测值,根据集合中的最大值与最小值来定义一个区间;S3、通过S2中的区间与缺失值t的数量来定义一个衡量观测值权重的步长;S4、根据缺失值t的个数将步骤S2划分为t个小区间;S5、利用剩余的(m


技术研发人员:窦军 魏国亮 宋燕
受保护的技术使用者:上海理工大学
技术研发日:2021.03.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-13054.html

最新回复(0)