基于DEA-GBDT的辟谣信息发布有效性识别方法

专利2026-02-24  6


本发明涉及信息识别,特别是指基于dea-gbdt的辟谣信息发布有效性识别方法。


背景技术:

1、在信息爆炸的时代,谣言和虚假信息的传播速度之快令人担忧。当谣言蔓延时,社会秩序和公众利益往往受到严重威胁。面对这一挑战,辟谣工作变得尤为重要。但由于信息审核机制不健全、网络匿名性等原因,辟谣信息发布后容易发生辟谣失灵、“逆火效应”等现象,致使各类谣言仍然盛行,甚至呈现反复和不断升级的趋势。因此,建立识别方法去识别社交媒体辟谣信息发布有效性的关键因素,对于提高社交媒体平台辟谣信息发布有效性,进而抑制谣言信息传播和净化舆论环境等方面具有重要意义。随着人工智能技术的发展,机器学习以及深度学习方法在识别社交媒体辟谣信息发布有效性的关键因素上也有了广泛的应用,但是目前很多研究和应用缺乏针对社交媒体辟谣信息自身特点的特征提取,缺乏社交媒体大样本数据与机器学习相结合的方法,以及缺乏基于综合数据。

2、辟谣信息发布的有效性识别是一项重要建模任务,现有的识别模型在对辟谣信息有效性相关指标的特征构造方面还不够全面,未充分挖掘辟谣主体、辟谣情景等影响因素,信息生态系统主要是人、信息、环境间的互动与协同合作,其核心是在特定的时空中,通过信息活动将人、信息、环境等组成的一个动态整体。作为一个完整的信息生态系统,社交媒体中辟谣信息发布的有效性依赖于信息本体、信息主体以及信息环境等多种因素。因此将辟谣主体、辟谣情景等影响因素增加到辟谣信息有效性相关指标的特征构造里,将有利于在提高辟谣信息发布有效性的基础之上增强辟谣信息交换的效率,让公众能够在更好地了解谣言真相的情况下,有效地控制谣言的传播速率,从而避免其带来的负面效应。在研究方法层面,已有研究主要采取案例分析、机理分析、问卷调查等方法,还缺乏使用社交媒体大样本数据与机器学习相结合的方法揭示辟谣信息发布有效性的关键因素及作用机制,大样本数据所具有的大样本容量特性使我们能够发现与统计总体的子群体相关的隐藏模式,从而有机会运用需要复杂统计技术的子群数据对变异性进行建模,鉴于大样本的数据量大、高纬度等特点,需要使用机器学习等提供的方法和算法解决大数据使用中最常遇到的变异性、噪声积累和内生性等问题,因此使用社交媒体大样本数据与机器学习相结合的方法能有效揭示辟谣信息发布有效性的关键因素及作用机制。在辟谣有效性的测度方面,以往研究主要以转发数和评论数作为辟谣效果的评价指标,或使用德尔菲法等专家打分的方法衡量辟谣效果,围绕单一的传播主体或受众行为视角展开实证分析,总体可解释性存在一定不足,基于综合数据量化视角的影响因素作用方向和作用强度研究尚不常见。

3、基于此,现在提供基于dea-gbdt的辟谣信息发布有效性识别方法,可以消除现有装置存在的弊端。


技术实现思路

1、本发明的目的在于提供基于dea-gbdt的辟谣信息发布有效性识别方法,解决了现有技术中的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、基于dea-gbdt的辟谣信息发布有效性识别方法,包括以下步骤:

4、步骤一:数据集准备,从各社交媒体网站上获取到辟谣信息数据;

5、步骤二:数据预处理,对收集到的样本数据进行缺失值、异常值处理后,采z-score标准化处理数值型数据,采取独热编码的方法处理类别型数据,得到预处理后的数据矩阵;z-score标准化能够将不同量级的辟谣信息数据转化为统一量度的z-score分值,使得数据标准统一化,从而达到提高辟谣信息数据可比性目的,z-score标准化的公式如式(1)所示;

6、

7、其中z*是由原始数据z标准化后的数据,μ和σ分别为z的均值与标准差;

8、步骤三:特征提取,对样本数据集进行特征提取分为两个部分;

9、提取辟谣信息发布有效性综合评估特征和影响辟谣信息发布有效性特征;

10、步骤四:构建dea模型,综合评价决策单元即单条辟谣信息的效率分类;

11、步骤五:特征选择,将样本数据按照7:3的比例划分训练集和测试集,以辟谣信息发布有效性的影响指标体系为自变量,辟谣信息发布有效性的dea分类作为因变量;采用斯皮尔曼相关系数、距离相关系数、岭回归模型、随机森林模型这4种方法进行集成特征选择;

12、步骤六:训练dea-gbdt模型,将特征选择后的特征作为自变量存入样本特征向量集合中,辟谣信息发布有效性dea分类结果为标签,训练一个dea-gbdt模型;

13、步骤七:dea-gbdt模型优化,由于辟谣信息发布有效性的正负样本很可能分布不均衡,因此采用过采样算法对训练数据进行重采样,将产生的新样本添加到训练数据集中,以平衡数据集类型,采用超参数优化算法对模型参数进行优化,将最优的参数保存,从而得到最优的辟谣信息发布效果评估模型;

14、步骤八:dea-gbdt模型评价,使用测试集样本验证最优参数的模型性能;采用准确率、精确率、召回率、f1得分和acu值这些指标对优化后的dea-gbdt模型的推广性能及分类性能进行评价;

15、步骤九:根据用户给出的辟谣信息文本及用户信息,运用训练过的dea-gbdt模型对辟谣信息有效性进行评估,系统识别得分较低的辟谣信息,分析其语法、语义、文本、辟谣策略这些特征,找出问题所在,对非有效辟谣信息提出改进建议。

16、在上述技术方案的基础上,本发明还提供以下可选技术方案:

17、在可选方案中:步骤一中的采集的数据字段包括辟谣信息发布的用户粉丝数、关注数、认证类型、性别、发帖量主体信息;发布的辟谣信息文本内容、评论文本内容、转发数、点赞数、评论数、发布时间、图片、视频;转发者的粉丝数、认证类型。

18、在可选方案中:辟谣主题的特征提取利用lda模型对样本数据中的文本进行向量化表示,再采用遗传优化的dbscan方法对文本进行聚类,得出最佳的辟谣主题类别数。

19、在可选方案中:基于步骤三中构建的评估单条辟谣信息发布有效性特征,对辟谣信息发布有效性采取综合评价方法(dea模型),将投入指标和产出指标构成辟谣信息有效性评价的最小数据集(mds),以虚拟变量1作为dea综合评价的投入指标数据集,a={a1,a2,...,am}n×m,以认知值、正面评论数占比、转发影响力、评论数和点赞数作为dea综合评价的产出指标,得到产出数据集,b={b1,b2,...,bs}m×s,其中n为评价对象的个数,m和s分别表示为产出和投入个数,据此构建dea模型;

20、具体如式(2)所示:

21、

22、其中,θ表示决策单元的有效值,ε为非阿基米德无穷小量,计算时通常取ε=10-7,s-和s+分别表示投入项的松弛变量和产出项的剩余变量,s-=(s1-,s2-,...,sm-)t及s+=(s1+,s2+,...,ss+)t分别表示投入m项的冗余量和产出n项的不足量,和分别满足:xj和yj为决策单元(dmu)的输入变量和输出变量。

23、在可选方案中:利用python语言采集新浪微博中#辟谣#、#官方辟谣#和#联合辟谣#这些话题下的热门辟谣微博数据,获取数据字段包括辟谣微博发布的用户id、用户昵称、粉丝数,然后对收集到的样本数据进行缺失值、异常值处理后,采取z-score标准化处理数值型数据,采取独热编码的方法处理类别型数据,得到预处理后的数据矩阵。

24、在可选方案中:dea-gbdt模型训练,辟谣信息是否有效是一个二分类变量,采用具有优秀分类处理性能的xgboost模型和lgbm模型对数据集的数据进行分类处理;

25、其中xgboost模型目标函数由损失函数和正则化项ω(fk)两部分组成,目标函数为:

26、

27、是线性空间上的表达,i是第i个样本,k是第k棵树,是样本预测值,表示k棵树的复杂度。lgbm模型在xgboost模型基础上进行优化。

28、相较于现有技术,本发明的有益效果如下:

29、(1)本发明能够利用梯度提升决策树模型对影响辟谣信息发布有效性进行评估,因为辟谣信息发布是否有效是一个二分类变量,采用二分类预测方法能分析影响辟谣信息发布的有效性。

30、(2)本发明需要以辟谣信息发布有效性的影响指标为自变量和以辟谣信息发布有效性的dea分类结果为标签训练dea-gbdt模型,因为影响辟谣信息发布有效性的因素非常多,单一的指标不足以评估辟谣信息有效性,本发明将提取5个指标,对每条辟谣信息采取数据包络分析模型进行综合评价,并构建的辟谣信息发布有效性影响因素指标体系。

31、(3)本发明可以根据用户给出的辟谣信息文本及用户相关信息,运用训练过的dea-gbdt模型分析其语法、语义、文本、辟谣策略等特征,找出问题所在,对非有效辟谣信息提出改进建议从而达到更好的有效性。


技术特征:

1.基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于,步骤一中的采集的数据字段包括辟谣信息发布的用户粉丝数、关注数、认证类型、性别、发帖量主体信息;发布的辟谣信息文本内容、评论文本内容、转发数、点赞数、评论数、发布时间、图片、视频;转发者的粉丝数、认证类型。

3.根据权利要求1所述的基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于,辟谣主题的特征提取利用lda模型对样本数据中的文本进行向量化表示,再采用遗传优化的dbscan方法对文本进行聚类,得出最佳的辟谣主题类别数。

4.根据权利要求1所述的基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于,基于步骤三中构建的评估单条辟谣信息发布有效性特征,对辟谣信息发布有效性采取综合评价方法(dea模型),将投入指标和产出指标构成辟谣信息有效性评价的最小数据集(mds),以虚拟变量1作为dea综合评价的投入指标数据集,a={a1,a2,...,am}n×m,以认知值、正面评论数占比、转发影响力、评论数和点赞数作为dea综合评价的产出指标,得到产出数据集,b={b1,b2,...,bs}m×s,其中n为评价对象的个数,m和s分别表示为产出和投入个数,据此构建dea模型;

5.根据权利要求1所述的基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于,利用python语言采集新浪微博中#辟谣#、#官方辟谣#和#联合辟谣#这些话题下的热门辟谣微博数据,获取数据字段包括辟谣微博发布的用户id、用户昵称、粉丝数,然后对收集到的样本数据进行缺失值、异常值处理后,采取z-score标准化处理数值型数据,采取独热编码的方法处理类别型数据,得到预处理后的数据矩阵。

6.根据权利要求1所述的基于dea-gbdt的辟谣信息发布有效性识别方法,其特征在于,dea-gbdt模型训练,辟谣信息是否有效是一个二分类变量,采用具有优秀分类处理性能的xgboost模型和lgbm模型对数据集的数据进行分类处理;


技术总结
本发明涉及信息识别技术领域,具体公开了基于DEA‑GBDT的辟谣信息发布有效性识别方法,用以解决现有的辟谣信息发布有效性识别困难及如何提高辟谣信息发布有效性的问题。其实现方法为:数据集准备与预处理;构建辟谣信息发布有效性影响因素指标体系,并使用机器学习算法对指标进行测量;构建数据包络分析模型(DEA),综合评价单个决策单元,即对单条辟谣信息的效率进行分类;采用斯皮尔曼相关系数、距离相关系数、岭回归模型、随机森林模型这4种方法进行集成特征选择,选择出最具代表性和预测能力的特征,本发明提出的DEA‑GBDT模型能够充分利用辟谣信息的原始数据特征,能较好地识别用户提供的辟谣信息的有效性,对非有效辟谣信息提出改进建议。

技术研发人员:陈建文,周珊,李圆,刘紫朦
受保护的技术使用者:湖南工商大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1828064.html

最新回复(0)