一种面向高维不平衡数据的特征选择方法

专利2025-05-01  9


本发明涉及特征选择,尤其是涉及一种面向高维不平衡数据的特征选择方法。


背景技术:

1、近年来,随着数据网络技术的蓬勃发展以及智能终端的普及,医疗健康、电子商务、社交网络、金融等诸多领域均需要存储应用大量的数据信息。这些海量数据的背后蕴含着丰富的知识,因此从复杂的大规模数据中提取出有意义的、有价值的信息变得尤为重要。作为一门多领域交叉学科,机器学习主要利用概率论、统计学、逼近论等领域的思想,通过设计一些算法从数据中自动分析获取规律,并根据规律对未知数据进行预测。典型的监督型机器学习任务是通过数据集中的特征来预测样本所对应的目标值。当前,机器学习已经大规模地被应用于各种大数据场景中,例如dna微阵列分析、图像分类、文本分类等。这些数据通常具有较高的数据维度,且常包含大量不相关或冗余特征,因此,直接使用原始数据进行处理会影响机器学习算法的效率和性能。基于该现象,在使用机器学习算法处理具有较高维度的大数据时,通常会对待处理的高维度数据进行预处理,比如特征选择、数据离散等一系列预处理操作,可以减少数据特征数量,节省计算机内存空间,从而提高机器学习算法的执行效率和拟合精度。

2、在对高维数据进行预处理的过程中,特征选择通过给定评价函数选取与当前工作有关的特征,剔除无关数据。该方法能够在一定程度上解决维度灾难,提升机器学习任务中模型的学习性能。作为一种面向高维不平衡数据的特征选择方法重要的数据预处理技术,特征选择方法主要分为三种:过滤式(filter)、包装式(wrapper)、嵌入式(embedded)。过滤式方法按照特征重要性对特征进行排序。因其排序过程不涉及分类器,因此计算成本往往较小,但分类精度相对较低。与过滤器方法不同,包装器方法将分类器的性能作为评价特征子集的标准。一般来说,该方法比过滤方法具有更高的分类精度。而嵌入式方法将特征过程与分类器学习相结合,在设计分类器时实现了最优特征的选择,因其结果强烈依赖于所使用的分类器,鲁棒性相对较差。因此,本发明利用包装器的方法来解决分类预测中的高维冗余问题。然而,由于搜索空间的指数级增长,这些方法往往具有较高的计算复杂度。因此,必须简化框架,利用合适的搜索方法找到患者特征的最优子集。

3、群体智能算法作为一种面向高维不平衡数据的特征选择方法有效的搜索技术,被广泛应用于包装式特征选择方法中,以加快和简化对最优基因子集的搜索。其中,以菌群生命周期行为为研究对象的菌群优化算法,借鉴了菌群强大的复杂环境适应能力与群落自恢复能力,在特征选择分类领域的研究相对较少,但仍有学者尝试将其引入该类问题的求解中并取得一定成效,主要研究聚焦于:1)特征选择机制。wang等人提出了一种面向高维不平衡数据的特征选择方法加权策略来控制不同特征被选择的概率,以提高准确性。2)种群优化。chen等人将混沌机制纳入了细菌种群的趋化性和位置更新阶段,以提高其适应性。有研究将细菌分为多个组,在不同改进的种群更新策略的控制下进行不同的工作,以提高搜索效率。3)学习策略优化。kaur等人研究了一个多目标bfo来提高细菌的学习能力,提高算法的收敛速度。wang等人设计了一种面向高维不平衡数据的特征选择方法自适应属性学习策略,以提高细菌间的信息通信能力。综上,基于细菌行为的特征选择分类模型和方法研究多集中在算法改进及其应用上,但研究尚不充分,仍具有改进空间。

4、此外,在疾病诊断、客户流失预测等各类实际场景中,患者发病或客户流失等目标事件的发生均属于小概率事件,相关数据极有可能是不平衡的。从不平衡的数据中学习,分类算法经常存在性能偏差问题。这些算法倾向于偏向多数类,导致一定程度的忽视少数类。然而,少数类的错误分类成本更高。在高维和类别不平衡的共同作用下,分类更具挑战性,主要是因为缺乏足够数量的少数类样本,识别具有鉴别能力的特征组合就变得更复杂。近年来,许多基于元启发式算法的特征选择方法被提出来处理不平衡的分类数据,相关方法可分为两类:修改类分布的数据集方法和改进训练算法或目标函数的算法级方法。数据级方法的目的是通过使用重采样技术来平衡所有类,包括过采样、过采样和混合采样,这是独立于分类器的训练过程的。在现有的技术中,过采样方法已经被证明是一个更好的选择,特别是由于只有几十个实例。然而,在新的平衡数据集中,有噪声的数据的数量可能会增加。算法级方法可以分为两个方面:第一个侧重于设计一个适应度函数,指导分类之前分类器的进化学习;第二个角度是在分类发生后基于分类成本提供反馈和调整。它们不影响数据分布的变化,更适合用于复杂数据分布的不平衡分类问题。在适应度函数方面,使用f评分函数(f-score)作为适应度函数,这是一种面向高维不平衡数据的特征选择方法,可以防止在不平衡数据集中可能出现的错误测量的测量方法。qiu等人将一种面向高维不平衡数据的特征选择方法不平衡性能度量auc引入适应度函数。它可以通过寻找最优的树状结构来指导fnt的进化过程来追逐较高的auc值。tang等人利用roc曲线下面积(auc)、gmean、auc_eus和gmean_eus作为适应度函数,检验了所提出的sde-welm的性能,并选择了合适的二元不平衡学习。pei等人开发了一种面向高维不平衡数据的特征选择方法新的适应度函数来解决类不平衡问题。一般来说,学者们设计的适应度函数主要是为了提高准确性,而不考虑数据分布的特点。此外,上述适应度函数经常与实际问题相结合,因此其泛化性较差。对于另一个研究重点是基于分类后的分类成本进行反馈和调整,yu等利用点积运算值和g均值,基于故障诊断数据不平衡的特点,来表示模型复杂度和识别性能,寻找最优模型体系结构作为优化目标。jia等人尝试使用自适应成本敏感学习策略来解决步进分析中的样本分布偏差问题,根据实例错误分类的类内和类间成本分配不同的权重,以识别更多的少数样本。然而,成本的设置是主观的,在不同的情况下往往难以确定。因此,人们需要的技术能够考虑到对象分类的高性能和数据分布的特征,而不使用更高的计算成本。此外,由于特征选择问题的搜索空间规模呈指数级增长,不平衡数据带来的性能偏置呈加重趋势,二者的组合作用给特征选择中的优化器(包括细菌启发式算法)带来了重大挑战。


技术实现思路

1、为了克服现有技术的不足,本发明的目的是提供一种面向高维不平衡数据的特征选择方法,在提高菌群优化算法效率的同时,考虑不平衡处理方法和数据降维策略设计,重点开发基于细菌优化的不平衡特征选择分类模型和方法,以解决具有不平衡性和特征冗余共同作用的分类问题。

2、为实现上述目的,本发明提供了一种面向高维不平衡数据的特征选择方法,包括以下步骤:

3、s1、利用新型阈值编码方案初始化细菌群体,为不同划分内的细菌个体赋予差异阈值;

4、s2、根据分类器性能、特征子集规模和类可分性更新目标函数值,为种群进化提供指导方向;

5、s3、采用阈值反馈学习机制寻找特征子集,对于选出的特征子集,通过分类器进行验证;

6、s4、通过新型菌群优化迭代机制寻优,确定最优特征子集,验证最优特征子集的泛化性和代表性。

7、优选的,在步骤s1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量divsize根据种群大小popsize和分区数量nbrdiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体如下所示:

8、

9、

10、

11、公式(1)为各分区中的细菌数量根据种群大小和分区数量的计算公式;

12、公式(2)为各分区内细菌个体特征规模根据总特征规模、当前分区序号和总分区数量的计算公式;

13、公式(3)为各分区中的细菌个体设计不同的差异化阈值,随着分类顺序和特征数量的增加,分类阈值会增加,保留较少的特征;

14、其中,d∈[1,len_div(i)]表示第i个划分中细菌的第d个维度,len_div(i)表示第i个划分中细菌的长度,thres_ub和thres_lb分别表示阈值上下限。

15、优选的,在步骤s2中,依据分类预测性能、特征子集规模和类别可分离性,定义三个子函数,具体如下:

16、s21、选择不平衡分类中重要衡量指标f1-score作为模型的性能度量指标,即子函数1;

17、s22、将各样本的邻居集合定义为neighbor={neighbor1,neighbor2,...,neighbork};边界水平bl定义为k个最近邻中不同类别实例的数量,如公式(4)所示:

18、bli=count(neighbor),yneighbor≠yi  (4)

19、其中count()表示计数函数,y_neighbor表示相应邻居的类别标签;

20、若一个数据样本的边界水平接近于0,则认为该实例是安全的;若接近于最近邻总数k,则该实例当作噪声样本;

21、边界水平比例blr,表示样本x_i边界水平值和最近邻总数比值,如公式(5)所示:

22、blri=bli/k(5)

23、用于识别blr值大于0.5的实例,即识别出处于边界区域的样本,将边界区域样本所占比例作为子函数2;

24、s23、将所选特征子集规模占所有特征数量的比例作为子函数3。

25、优选的,在步骤s2中,综合上述三个子函数,采用加权的方式,将特征评分函数或者目标函数定义为公式(6),具体如下所示:

26、

27、其中,为加权f1的计算公式,num_feat是选定特征的数量,max_feat是数据集中所有特征的数量,num_borderins定义为边界区域内的实例数量。

28、优选的,在步骤s3中,采用阈值反馈学习机制寻找特征子集的方法如下所示:

29、s31、初始化三个档案集arc_tf,arc_bf,andarc_wf;

30、s32、通过确定细菌位置与分类阈值之间的关系来计算适应度值;

31、s33、定义perofwf,评估出现在存档集合arc_wf中的特征的影响,结合perofwf值更新阈值。

32、优选的,在步骤s33中,perofwf的定义公式如下所示:

33、perofwf=arcwf/(arcwf+arcbf+eps)  (7)

34、依据不同的perofwf值对阈值进行更新的公式如下所示:

35、

36、对于选出的特征子集,通过分类器进行验证。

37、优选的,在步骤s4中,通过新型菌群优化迭代机制寻优,确定最优特征子集的方法根据繁殖频率fre、消除-扩散事件频率fed和当前迭代次数iter之间的关系进行趋向性运动、繁殖和消除-扩散事件三个操作的顺序执行;当迭代次数达到最大迭代次数max_iter时,算法停止搜索并返回所选的特征子集作为结果,即为最优特征子集。

38、优选的,在步骤s4中,利用测试集数据验证最优特征子集的泛化性和代表性。

39、因此,本发明采用上述结构的一种面向高维不平衡数据的特征选择方法,具备以下有益效果:

40、(1)本发明提出了一种新的细菌启发式特征选择方法,以解决高维不平衡数据分类问题,以解决算法性能下降、计算资源和时间增加以及少数类识别能力差等问题。

41、(2)本发明了解决类不平衡问题,为数据样本定义了边界水平的概念,并将其作为目标函数的一个新组成部分。另外,同时考虑分类性能和所选特征数量。通过设计新的目标函数,该方法使解决了数据类别不平衡导致的性能偏置问题。

42、(3)本发明设计了一种基于种群划分的双阀反馈学习机制,以高效选择最紧凑的特征子集。这种机制采用更准确和更新颖的个体编码表示和阈值反馈学习机制,这对于分类预测问题和特征选择过程至关重要。

43、(4)本发明提出了一种新的细菌迭代方案来降低计算成本和提高搜索能力。细菌群体被划分为不同长度的细菌子群,通过平稳学习通信机制和单层循环结构,搜索最优特征子集,从而使整个种群可以逃脱局部最优的捕获。

44、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。


技术特征:

1.一种面向高维不平衡数据的特征选择方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向高维不平衡数据的特征选择方法,其特征在于:在步骤s1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量divsize根据种群大小popsize和分区数量nbrdiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体如下所示:

3.根据权利要求2所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,依据分类预测性能、特征子集规模和类别可分离性,定义三个子函数,具体如下:

4.根据权利要求3所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,综合上述三个子函数,采用加权的方式,将特征评分函数或者目标函数定义为公式(6),具体如下所示:

5.根据权利要求4所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s3中,采用阈值反馈学习机制寻找特征子集的方法如下所示:

6.根据权利要求5所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s33中,perofwf的定义公式如下所示:

7.根据权利要求6所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s4中,通过新型菌群优化迭代机制寻优,确定最优特征子集的方法根据繁殖频率fre、消除-扩散事件频率fed和当前迭代次数iter之间的关系进行趋向性运动、繁殖和消除-扩散事件三个操作的顺序执行;当迭代次数达到最大迭代次数max_iter时,算法停止搜索并返回所选的特征子集作为结果,即为最优特征子集。

8.根据权利要求7所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s4中,利用测试集数据验证最优特征子集的泛化性和代表性。


技术总结
本发明提供了一种面向高维不平衡数据的特征选择方法,属于特征选择技术领域。包括以下步骤:初始化细菌群体,为不同划分内的细菌个体赋予差异阈值;设计新型目标函数用于特征组合评估,为种群进化提供指导方向;采用阈值反馈学习机制寻找特征子集,通过分类器进行验证;通过新型菌群优化迭代机制寻优,确定最优特征子集,验证最优特征子集的泛化性和代表性。本发明通过新型目标函数引导种群进化来解决数据类别不平衡产生的性能偏置问题;采用双阀反馈学习机制选取与当前工作有关的特征,剔除冗余不相关数据;设计了新的细菌优化迭代方案,以解决搜索空间指数级增长和较高计算复杂度的问题。该方法能够在一定程度上解决维度灾难,提升机器学习任务中模型的学习性能。

技术研发人员:王红,邢童童,牛奔,杨辰,王萌,周天薇
受保护的技术使用者:深圳大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1819425.html

最新回复(0)