本发明涉及社交网络,特别涉及基于社交网络与文本网络互耦合的用户角色的无监督分类方法、系统、设备及介质。
背景技术:
1、社交网络是由建立牢固社会联系的用户构成的网络结构。随着我国当前改革的快速深入和社会的飞速发展,中国网民总量正成几何递增的态势而发展,在线社交网络已成为当今社会人们发表言论与获取信息最为重要的途径之一。社交网络的用户群体利用互联网工具,建立和维系彼此之间的人际关系,共享各类个人和社会化内容。
2、社交网络中用户角色分析是对社交网络中用户所扮演的不同角色进行研究和识别的过程。通过分析用户在社交网络上的行为、互动和内容发布,识别用户可能扮演的社交角色,如"意见领袖"、"活跃参与者"、"信息传播者"等。社交网络中的用户角色分析可以帮助社交网络平台监测和管理用户行为,识别潜在的不当行为、虚假账号或滥用行为,从而维护社交网络的安全和秩序。
3、识别社交网络中用户角色的主要方法包括内容分析和社交网络分析。内容分析关注用户的行为,根据用户行为特征来区分用户角色。在darshika(2022)发表的论文中(koggalahewa d,xu y,foo e.an unsupervised method for social network spammerdetection based on user information interests[j].journal ofbig data,2022,9(1):1-35.),用两个用户之间多个共享主题的共同兴趣来计算用户之间接受度,从而区分社交网络中的垃圾邮件发送者。社交网络分析根据网络联系区分职位和角色。在qianyang(2019)发表的论文中(yang q,li c.userroles and contributions in user innovationcommunity[j].american journal of industrial and business management,2019,9(6):1318-1331.),社交网络的拓扑特性被用于定位用户在社交网络中的位置,例如高出度的人更有可能是社交达人,低出度的人更有可能是潜水员。如何同时利用社交关系网络和文本网络中的独有特点,并使两个网络包含的信息相互补充、相互影响去挖掘出更多的信息,发现非法团体的各类角色,对于我国的国家及社会稳定具有重要意义。
4、从现有的社交网络用户角色分析的分类策略来看,如果社交网络中的用户已经用角色进行了标注,则可以利用它来训练分类器来检测人员角色。如果只有部分用户的角色被知晓,这种情况可以使用半监督学习,为此已经研究了大量机器学习方法。但是,手动标记角色一方面会带来很多不确定性和有偏见的决策,从而无法保证标记数据的质量。另一方面,手动标记角色面对海量的信息,需要消耗大量的时间和人力。如果不知道角色标签,这种情况可以使用无监督学习算法。普通的无监督学习算法只会输出未标记的类,而不会附加到类的角色含义。为了克服这一问题,junsun提出了一种把每个网络的局部特征分布到全局特征空间的特征转换的网络角色分类的迁移学习方法(sun j,kunegis j,staabs.predicting user roles in social networks using transfer learning withfeature transformation[c]//2016ieee 16th international conference on datamining workshops(icdmw).ieee,2016:128-135.),使用迁移学习使人们能够从其他标记的源数据集中学习知识,并将学到的知识应用于未标记的目标数据集,但是该方法只有当两个数据集具有非常相似的结构属性时才有效。
5、综上所述,现有技术存在如下问题:
6、1、在处理庞大的社交网络并面临大量无意义信息的情况下,核心信息的抽取变得非常困难;
7、2、很多现有分类模型往往过于依赖标签,限制了其适用性;
8、3、传统的无监督聚类方法可能导致类别过于单一,无法实现多角色分类的技术问题。
技术实现思路
1、为了克服上述现有技术的缺点,本发明的目的在于提供基于社交网络与文本网络互耦合的用户角色的无监督分类方法、系统、设备及介质,根据社交网络中独有的拓扑属性和文本网络中独有的语义信息,在文本预处理操作后,利用社交网络中的拓扑属性来抽取文本网络中关键信息,引入主题模型对包含关键信息的文本网络的语义内容进行深入分析,在无监督模式下,通过对模型挖掘到的结果进行方法设计,以推断出社交网络中用户属于不同角色的可能性,本发明能够深入了解社交网络的结构和组织,并揭示社交网络中的关键人物以及群体形成的结构,为进一步的社交网络分析提供了基础,具有信息准确性高、质量高、适用性强以及角色匹配度高的特点。
2、为了实现上述目的,本发明采取的技术方案如下:
3、基于社交网络与文本网络互耦合的用户角色的无监督分类方法,包括以下步骤:
4、步骤1,文本预处理:清除文本信息中的噪声数据;
5、步骤2,构建社交网络:利用步骤1预处理后的文本信息构建社交网络;
6、步骤3,构建文本网络:利用步骤2得到的社交网络构建文本网络,并对文本信息进行主题建模;
7、步骤4,角色分类:利用步骤3得到的文本网络和文本信息的主题建模结果,设计相应的分类方法,得到社交网络中用户的多重角色分类结果。
8、所述步骤1具体为:
9、步骤1.1,清除文本信息中的噪声数据;
10、步骤1.2,使用自定义词典指导分词器对步骤1.1清除噪声数据后的文本信息进行分词。
11、所述步骤2具体为:
12、步骤2.1,优化用户间信息:删除步骤1.2中分词结果为空的文本信息,以及分词结果为空的文本信息的发送用户和接收用户/接收群组;
13、步骤2.2,构建社交网络无向图:将步骤2.1优化后的用户间信息中的发送用户和接收用户/接收群组作为输入,建立社交网络无向图;
14、步骤2.3,对步骤2.2得到的社交网络无向图中的所有用户节点进行排序;
15、步骤2.4,根据步骤2.3的排序结果设定阈值,筛选社交网络中中心性强的用户节点;
16、步骤2.5,保存步骤2.4筛选出的社交网络中中心性强的用户节点以及该用户对应的文本信息,得到社交网络。
17、所述步骤3具体为:
18、步骤3.1,使用点互信息(pmi)计算步骤2.5中中心性较强的用户节点的文本信息中任意两个词语之间的关联程度,得到点互信息(pmi)值;
19、步骤3.2,以词语为节点、词语的共现为边、步骤3.1得到的共现的点互信息(pmi)值为权重,生成文本共现网络图;
20、步骤3.3,观察步骤3.2得到的文本共现网络图,划分若干种角色类别和每种类别对应的文本向量,所述文本向量是和某一类角色有关的一组词语;
21、步骤3.4,对步骤2.5得到的文本信息,建立词典和词袋;
22、步骤3.5,使用步骤3.4得到的词典和词袋对文本信息进行建模,得到隐含狄利克雷分布(lda)主题模型或其变体,并将所有文本信息聚类为若干个主题。
23、所述步骤4具体为:
24、步骤4.1,利用步骤3.5建模后得到的若干个主题,得到每条交流信息分别属于若干个主题的概率,形成文本-主题矩阵;
25、步骤4.2,使用步骤3.3中每一类角色对应的文本向量分别和步骤3.5得到的若干个主题做词频-逆文档频率(tf-idf)相似度匹配,并对每一主题的相似度匹配结果进行标准化处理,得到主题-角色矩阵;
26、步骤4.3,将步骤4.1得到文本-主题矩阵和步骤4.2得到的主题-角色矩阵相乘,得到文本-角色矩阵,也即用户-角色矩阵;
27、所述步骤3.1中使用点互信息(pmi)计算文本信息中任意两个词语之间关联程度的计算公式为:
28、
29、其中,p(a,b)表示词语a和词语b同时出现在一句话(或文档)中的概率,p(a)表示词a单独出现在一句话(或文档)的概率,p(b)表示词b单独出现在一句话(或文档)的概率。
30、所述步骤4.2中相似度匹配的具体过程为:
31、步骤4.2.1,计算每个文本中每个词的词频-逆文档频率(tf-idf)向量,计算公式为:
32、
33、
34、tf-idf(t)=tf(t)×idf(t);
35、步骤4.2.2,计算两个文本向量之间的余弦相似度来确定语义相似程度,对于两个文本的词频-逆文档频率(tf-idf)向量a和b,余弦相似度计算公式为:
36、
37、其中,a·b表示向量内积(点积),||a||表示向量a的范数(长度),||b||表示向量b的范数;余弦相似度值范围在[-1,1]之间,越接近1表示两个文本越相似。
38、基于社交网络与文本网络互耦合的用户角色分类系统,包括:
39、文本预处理模块:清除文本信息中的噪声数据;
40、社交网络构建模块:利用文本预处理模块预处理后的文本信息构建社交网络;
41、文本网络构建模块:利用社交网络构建模块得到的社交网络构建文本网络,并对文本信息进行主题建模;
42、角色分类模块:利用文本网络构建模块得到的文本网络和文本信息的主题建模结果,设计相应的分类方法,得到社交网络中用户的多重角色分类结果。
43、基于社交网络与文本网络互耦合的用户角色分类设备,包括:
44、存储器:用于存储实现所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法的计算机程序;
45、处理器:用于执行所述计算机程序时实现所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法。
46、一种计算机可读存储介质:
47、所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现基于社交网络与文本网络互耦合的用户角色的无监督分类方法。
48、相对于现有技术,本发明的有益效果在于:
49、1、本发明步骤1中清除文本信息中的噪声数据以及删除产生噪声数据的发送用户数据,能够初步获取文本信息中的有用信息,为后续利用文本信息对社交网络产生影响做准备,与现有技术相比,具有提高文本信息和社交网络信息的准确性和质量的优点。
50、2、本发明步骤1中使用自定义词典指导分词器对所有文本信息分词,能够确保特定领域的专用词汇得到准确切分,与现有技术相比,能够为不同问题类型的文本信息引入人工指导信息,提高了处理文本的准确性和适用性。
51、3、本发明步骤2中使用社交网络中独有的拓扑属性之一,即节点的中心性对所有用户节点进行排序,能够帮助识别社交网络中对于信息传播具有重要影响的关键节点,并利用社交网络对文本信息产生影响,与现有技术相比,从社交网络角度进一步挖掘核心用户和核心用户之间交流信息,进行社交网络和文本网络核心信息的二次抽取,提高了文本信息和社交网络信息的准确性和质量。
52、4、文本共现网络图是文本网络中语义信息的重要表示形式。本发明步骤3中使用文本共现网络图总结角色类别和每种类别对应的文本向量,能够以图的形式清晰展示从步骤1中的文本信息角度和从步骤2中的社交网络角度两次过滤后的核心文本信息,与现有技术相比,本发明能够避免在海量文本文档中按行寻找角色和角色信息。
53、5、本发明步骤3中使用隐含狄利克雷分布(lda)主题模型或其变体挖掘文本网络中独有的语义信息,将所有文本信息聚类为若干个主题,能够得到后续角色分类需要的两个分布:每条文本都被表示为一个主题分布的概率向量,每个主题都有一个对应的词分布概率向量,与现有技术相比,主题分布和词分布概率向量提供更丰富的信息,有助于深入挖掘文本内在的语义结构,为后续角色分类提供更多信息支持。
54、6、本发明步骤4中使用步骤3.3中每一类角色对应的文本向量分别和步骤3.5得到的若干个主题做相似度匹配,并对每一主题的相似度匹配结果进行标准化处理得到主题-角色矩阵,能够有效解决传统无监督聚类算法只关注文本的相似性,而没有直接将聚类结果与预定义的目标角色相对应的问题,与现有技术相比,本发明不需要数据集有标签,即可使得每个聚类主题与社交网络中的具体角色相匹配。
55、7、本发明步骤4中使用步骤4.1得到文本-主题矩阵和步骤4.2得到的主题-角色矩阵相乘,通过主题作为中间层,将文本与角色之间的关系进行连接和转换得到文本-角色矩阵,能够考虑到文本网络中每个发送用户发送的文本在若干个主题的概率,还能够考虑到网络中每一个主题分别属于若干类角色的概率,与现有技术相比,本发明打破了传统的聚类方法只能得到单一分类结果的限制,允许用户在社交网络中扮演多个角色。
56、综上所述,本发明通过对社交网络中用户关联关系和文本网络中信息交流进行相互耦合综合分析,获取大规模社交网络中的核心信息,挖掘核心信息进行角色分类;本发明研究了在未标记的社交网络中预测用户角色的问题,所提出的方法摆脱了传统分类方法对标签的依赖。在无监督模式下,本发明超越了简单的无监督分组,可以推断出社交网络中用户属于不同角色的可能性,从而避免了传统无监督聚类方法可能带来的类别单一和信息限制的问题;本发明所提出的方法允许用户在社交网络中扮演多个角色,揭示了用户在社交网络中潜在的多重角色。通过对主题模型挖掘核心文本信息得到的结果进行方法设计,提供用户属于不同角色的概率。这一特点使得本发明更适用于真实世界的社交网络分析,能够更全面地理解用户的多样性,为社交网络中用户行为的深入理解提供了更为细致和全面的视角,具有具有信息准确性高、质量高、适用性强以及角色匹配度高的特点。
1.基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤1具体为:
3.根据权利要求1或2所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤2具体为:
4.根据权利要求1或3所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤3具体为:
5.根据权利要求1或4所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤4具体为:
6.根据权利要求4所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤3.1中使用点互信息(pmi)计算文本信息中任意两个词语之间关联程度的计算公式为:
7.根据权利要求5所述的基于社交网络与文本网络互耦合的用户角色的无监督分类方法,其特征在于,所述步骤4.2中相似度匹配的具体过程为:
8.基于社交网络与文本网络互耦合的用户角色的无监督分类系统,其特征在于,包括:
9.基于社交网络与文本网络互耦合的用户角色的无监督分类设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于: