1.本发明属于计算机机器学习与人工智能技术领域,主要是涉及一种基于有监督主题模型 的网络媒体事件检测。
背景技术:
2.随着移动互联网的高速发展和各种社交网站的流行,人们可以随时随地通过手机上传现 实生活中发生的实时事件并留下自己的看法,这使得社交媒体网站上的数据按指数型增长。 当现实生活中发生重大事件时,用户会把事件相关的多媒体内容(如文字、图片、视频等) 发表到社交媒体网站。然而,用户贡献的数据通常是嘈杂的、非结构化的,人们很难手工分 析其中的网络媒体事件。因此,自动组织大量的社交媒体数据,挖掘热点网络媒体事件的主 题,对提高事件分析能力尤为重要。
3.主流的用于网络媒体事件分析的方法都是基于主题模型的。plsa和lda被广泛用于文 本建模和分析。基于lda开发了许多有监督主题模型,这些模型可以利用标签信息,寻找出 更优的文档表达。在互联网上,社交媒体由丰富的非结构化数据组成,具有多个模态(文本、 图片、视频等),这有助于表达网络媒体事件的完整含义。多模态的主题模型在原本主题生成 文本单词这一模态上扩展了生成视觉单词的视觉模态,两种模态的单词共享文档的主题空间, 充分利用了网络媒体事件的多模态信息。
4.主题模型在文档和单词中间增加了主题的概念,可以学习文档结构中的潜在语义,在主 题层次上对单词进行聚类,达到降维的效果。主题模型假设单词服从多项式分布,对于不同 的单词主题模型不能区分它们语义上的区别,只能区分它们词频上的区别。文档中词的生成 概率仅取决于该词在语料库中出现的频率。可以简单地把主题模型看作是一种作用于语料全 局范围内的复杂的tf模型。它能很好的建模语料全局的词频信息和文档的潜在语义,并倾 向于关注高频词。所以主题模型挖掘出的事件主题中往往包含大量的高频词,这些在主题中 出现概率极高的高频词有时是无意义的词汇,或者说是与事件无关的词汇,根本不能表达出 主题含义。所以,没有任何人类知识或先验语义指导的主题模型往往导致难以解释的主题。 现有的mmslda、mmstm等模型都忽略了网络媒体事件丰富的内部语义以及编码在知识图 谱中的外部语义,不能区分出不同单词的语义区别。这些模型过分的关注高频词,限制了模 型性能的进一步提升。
技术实现要素:
5.本发明是为了解决上述现有技术存在的不足之处,提出一种语义和知识扩展主题模型的 网络媒体事件的类别检测方法,以期通过引入网络媒体事件的内部语义和外部知识,有效挖 掘出网络媒体事件中的语义单词,学习到具有可解释性的优质主题,以实现准确高效的规模 多模态网络媒体事件类别检测。
6.本发明为解决技术问题采用如下技术方案:
7.本发明一种语义和知识扩展主题模型的网络媒体事件的类别检测方法的特点包
括:
8.步骤1、获取网络媒体事件的数据集,并对数据集中每篇文档的文本数据进行分句分词、 词形还原、词性标注的预处理,从而构建文本字典;
9.步骤2、对所述数据集中每篇文档相应的图像数据并进行分块处理,将分块后的每个小块 作为一个视觉单词,提取每个视觉单词的图像特征,从而构建视觉词字典;
10.步骤3、利用式(1)构建网络媒体事件的分类损失函数:
[0011][0012]
式(1)中,q表示后验分布,l()表示后验分布q的对数似然的上界,c表示正则化参数,d 表示所述数据集中的文档数,l表示网络媒体事件的类别数,ε
q
[]表示关于后验分布q的数 学期望,表示第d篇文档属于第l个类别的铰链损失函数,并有:
[0013][0014]
式(2)中,η
l
表示第l个类别的判别系数,上标t表示转置,ι表示预定义的代价参数,表示第d篇文档的主题经验比例,表示第d篇文档是否属于第l个类别的二分类标签,并有:
[0015][0016]
式(3)中,y
d
表示第d篇文档的实际类别标签;
[0017]
步骤4、数据的生成过程:
[0018]
步骤4.1、从先验参数为α的狄利克雷分布中采样第d篇文档的主题分布参数θ
d
;
[0019]
步骤4.2、对于第k个主题:
[0020]
(1)从先验参数为β
w
的狄利克雷分布中采样数据集所对应的文本模态的词分布
[0021]
(2)从先验参数为β
v
的狄利克雷分布中采样数据集所对应的视觉模态的词分布
[0022]
(3)从先验参数为(μ0,c0)的vmf分布中采样位置参数μ
k
;
[0023]
(4)从先验参数为的对数正态分布中采样vmf分布的宽度参数κ
k
;
[0024]
步骤4.3、令u=(d,m0)表示第d篇文档的第m0个实体向量的下标:
[0025]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0026]
(2)从参数为的vmf分布中采样第d篇文档的第m0个实体向量e
u
;
[0027]
步骤4.4、令i=(d,m1)表示第d篇文档的第m1个文本词的下标:
[0028]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0029]
(2)根据第m1个文本词w
i
的词性先验p,从参数为的多项式分布中采样s
p
次第m1个文 本词w
i
;
[0030]
步骤4.5、令j=(d,m2)表示第d篇文档的第m2个视觉词的下标:
[0031]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0032]
(2)从参数为的多项式分布中采样第d篇文档的第m2个视觉词v
j
;
[0033]
步骤4.6、采样第d篇文档的实际类别标签y
d
:
[0034]
(1)对于判别系数η,依次从参数为(0,σ2)的正态分布中采样其第k个分量η
k
;
[0035]
(2)从参数为的max
‑
margin分布中采样第d篇文档的实际类别标签y
d
;
[0036]
步骤5、利用生成过程构建如式(4)所示的联合分布q(η,λ,z,θ,φ
w
,φ
v
):
[0037][0038]
式(4)中,ψ(y,w,v,e)表示归一化常数,其中,y表示类别变量,w表示文本词向量,v 表示视觉词向量,e表示知识实体矩阵;p0(η,z,θ,φ
w
,φ
v
)表示先验分布,其中,z表示主题 分配向量,θ表示主题比例,φ
w
表示文本词分布的参数矩阵,φ
v
表示视觉词分布的参数矩 阵,p(w,v,e|z,φ
w
,φ
v
)是生成过程的条件概率;是表示类别信息的后验分布,其 中,λ是增广变量;
[0039]
步骤6、利用式(5)得到采样实体向量主题的概率:
[0040][0041]
式(5)中,表示去掉下标u对应实体向量的主题分配后,下标u对应实体向 量分配到第k个主题下的概率,表示去掉下标u对应实体向量的主题计数后第d篇文档 中第k个主题下的计数;α为狄利克雷先验;c
l
(x)表示vmf分布的系数函数,||.||表示向量 的模;κ
k
是vmf分布的宽度参数;e
ii
表示第d篇文档中第ii个实体向量;(μ0,c0)是vmf分 布的先验参数;
[0042]
步骤7、利用式(6)采样vmf分布的宽度参数:
[0043][0044]
式(6)中,表示第k个主题的实体向量计数;lognormal(
·
)表示对数正态分布的概率密 度函数;为对数正态分布的先验参数;
[0045]
步骤8、利用式(7)采样判别系数η:
[0046]
q(η|z,λ)
∝
n(μ,σ)(7)
[0047]
式(7)中,判别系数η的先验服从高斯分布,即p0(η
k
)=n(0,σ2),其中,σ是一个非零 参数;μ表示均值,σ表示协方差矩阵,并有:
[0048]
[0049]
式(8)中,表示第d篇文档的主题经验比例;上标t表示转置;i表示单位矩阵;
[0050]
步骤9、利用式(9)采样文本词的主题:
[0051][0052]
式(9)中,表示文本模态中去掉下标i对应文本词的主题后的主题向量;w
i
=t0表示文 本词w
i
对应文本字典中第t0个词项;表示去掉下标i对应文本词的主题计数后第k个主 题下属于第t0个词项的单词计数;表示去掉下标i对应文本词的主题计数后第d篇文档 中第k个主题下的计数;α,β都为狄利克雷先验;为第d篇文档在第l个类别下的增广值; 表示第d篇文档中的文本词个数;η
l,k
表示第l个类别对应的判别向量的第k维的值;表 示排除下标i对应的词的判别式函数值,且
[0053]
步骤10、利用式(10)采样视觉词的主题:
[0054][0055]
式(9)中,表示视觉模态中去掉下标j对应视觉词的主题后的主题向量;v
j
=t1表示视 觉词v
j
对应视觉字典中第t1个词项;表示去掉下标j对应视觉词的主题计数后第k个主 题下属于第t1个词项的单词计数;表示去掉下标j对应视觉词的主题计数后第d篇文档 中第k个主题下的计数;表示第d篇文档中的视觉词个数;表示排除下标j对应的词的 判别式函数值,且
[0056]
步骤11、利用式(11)采样第d篇文档的增广值变量λ
d
:
[0057][0058]
式(11)中,gig(x;p,a,b)是广义逆高斯分布;
[0059]
步骤12、在吉布斯采样的过程中,利用式(12)估计主题分布参数θ
d
、文本模态的词分布 参数和视觉模态的词分布参数
[0060][0061]
式(10)中,分别为第d篇文档中的文本词、视觉词以及实体向量的个数,k 为主题数,m
w
表示文本词典的长度,m
v
表示视觉词典的长度;n
d,k
表示第d篇文档中第k
个 主题下的单词及实体向量计数,表示文本模态中第k个主题下第t0个词项的单词计数,表示文本模态中第k个主题下总的单词计数,表示视觉模态中第k个主题下第t1个词项的 单词计数,表示视觉模态中第k个主题下总的单词计数;
[0062]
步骤13、利用式(13)预测文档属于判别式函数值最大的单一类别:
[0063][0064]
式(13)中,l是类别数目。
[0065]
与现有技术相比,本发明的有益效果在于:
[0066]
1.本发明充分利用网络媒体事件的多模态属性以及标签信息,借助svm背后的最大间隔 原则引入具有判别性的标签信息到文档的低维表示中,从而能在一方面尽可能多的描述观测 数据,另一方面又尽量达到最小的分类损失以找到最有效的折中方案,从而增加了模型的鲁 棒性并提升了模型的分类效果。
[0067]
2.本发明在文本模态引入语料内部语义,能有效帮助模型识别单词在语义层面上的差异。 从语言学的角度来看,词性的变化可以使语言表达更多的信息。每一种词性在语言表达中都 扮演着独特的角色,传达着不同的信息。一般来说,名词、形容词、动词和副词比其他词性 对文本的语义表达更重要。因此,本发明对文本单词进行词性标记,并根据不同的词性来衡 量文本词所包含的语义量。通过修正模型的采样权重,提升了带有丰富语义的名词、形容词 等在事件主题中的地位,从而获得更加连贯的主题表示,带来了模型性能的提升。
[0068]
3.本发明在多模态(文本模态、视觉模态)的基础上又扩展了一个知识模态,将从文本 模态中链接出的知识实体单独作为一个模态采样,同样在文档范围内和文本模态以及视觉模 态共享主题空间。网络媒体事件中存在大量知识实体(例如人名,地名等),这些知识实体被 编码在面向事实的知识库中。融合知识库中现成的人类知识同样可以使得主题模型的性能得 到改善。本发明使用transe算法获取知识实体在知识图谱(wn18)中的低维向量表示,并 采用vmf分布建模这类方向型数据。以知识嵌入形式扩展的知识模态不仅可以为模型引入面 向事实的人类知识,充分利用文档结构中的关联知识,也可以优化文档的主题表示,使得模 型挖掘出概念更加一致的事件主题。
附图说明
[0069]
图1为本发明的模型结构图;
[0070]
图2为本发明的实施流程图。
具体实施方式
[0071]
在本实施例中,一种语义和知识扩展主题模型的网络媒体事件的类别检测方法融合了语 料内部语义和外部知识,克服了监督主题模型可解释性不足的弱点。本方法的模型结构图如 图1所示,其中灰色结点表示可观测变量,白色结点为隐变量,外围黑色结点为模型超参。 本方法通过提取文本模态的内部语义引导模型优化文本语义词的生成过程,使得模型倾向于 语义词而非高频词。扩展一个知识模态,引入面向事实的人类知识和文本信息
以及视觉信息 在同一个主题空间中共同刻画文档潜在的语义结构。爬取的数据集通过一定的处理得到文档 的初步特征表示(词id向量),使用transe算法得到知识实体的embedding,建立描述观测 数据的生成模型,根据生成模型的联合分布推导隐变量的条件分布,使用吉布斯采样算法推 断模型参数,待模型收敛后,根据文本词分布和视觉词分布采样测试文档的单词主题,将二 分类判别系数与文档主题表示点乘最大值对应的标签作为测试文档的所属事件,从而能够很 好的解决大规模多模态网络媒体事件的检测问题,此外,由于充分利用了语料内部和外部的 知识,使得主题模型能够得到具有可解释性的主题。具体的说,如图2所示,该方法是按照 以下步骤进行:
[0072]
步骤1、获取网络媒体事件的数据集,并对数据集中每篇文档的文本数据进行分句分词、 词形还原、词性标注的预处理,从而构建文本字典;
[0073]
步骤2、对数据集中每篇文档相应的图像数据并进行分块处理,将分块后的每个小块作为 一个视觉单词,提取每个视觉单词的图像特征,从而构建视觉词字典;
[0074]
步骤3、链接出网络媒体事件文档中的知识实体,使用transe算法得到知识实体在知识 图谱中的向量表示,并采用vmf分布刻画知识实体向量。
[0075]
步骤4、利用式(1)构建网络媒体事件的分类损失函数:
[0076][0077]
式(1)中,q表示后验分布,l()表示后验分布q的对数似然的上界,c表示正则化参数,d 表示数据集中的文档数,l表示网络媒体事件的类别数,ε
q
[]表示关于后验分布q的数学期 望,表示第d篇文档属于第l个类别的铰链损失函数,并有:
[0078][0079]
式(2)中,η
l
表示第l个类别的判别系数,上标t表示转置,ι表示预定义的代价参数,表示第d篇文档的主题经验比例,表示第d篇文档是否属于第l个类别的二分类标签,并有:
[0080][0081]
式(3)中,y
d
表示第d篇文档的实际类别标签;
[0082]
步骤5、数据的生成过程:
[0083]
步骤5.1、从先验参数为α的狄利克雷分布中采样第d篇文档的主题分布参数θ
d
;
[0084]
步骤5.2、对于第k个主题:
[0085]
(1)从先验参数为β
w
的狄利克雷分布中采样数据集所对应的文本模态的词分布
[0086]
(2)从先验参数为β
v
的狄利克雷分布中采样数据集所对应的视觉模态的词分布
[0087]
(3)从先验参数为(μ0,c0)的vmf分布中采样位置参数μ
k
;
[0088]
(4)从先验参数为的对数正态分布中采样vmf分布的宽度参数κ
k
;
[0089]
步骤5.3、令u=(d,m0)表示第d篇文档的第m0个实体向量的下标:
[0090]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0091]
(2)从参数为的vmf分布中采样第d篇文档的第m0个实体向量e
u
;
[0092]
步骤5.4、令i=(d,m1)表示第d篇文档的第m1个文本词的下标:
[0093]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0094]
(2)根据第m1个文本词w
i
的词性先验p,从参数为的多项式分布中采样s
p
次第m1个文 本词w
i
;
[0095]
步骤5.5、令j=(d,m2)表示第d篇文档的第m2个视觉词的下标:
[0096]
(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
[0097]
(2)从参数为的多项式分布中采样第d篇文档的第m2个视觉词v
j
;
[0098]
步骤5.6、采样第d篇文档的实际类别标签y
d
:
[0099]
(1)对于判别系数η,依次从参数为(0,σ2)的正态分布中采样其第k个分量η
k
;
[0100]
(2)从参数为的max
‑
margin分布中采样第d篇文档的实际类别标签y
d
;
[0101]
步骤6、利用生成过程构建如式(4)所示的联合分布q(η,λ,z,θ,φ
w
,φ
v
):
[0102][0103]
式(4)中,ψ(y,w,v,e)表示归一化常数,其中,y表示类别变量,w表示文本词向量,v 表示视觉词向量,e表示知识实体矩阵;p0(η,z,θ,φ
w
,φ
v
)表示先验分布,其中,z表示主题 分配向量,θ表示主题比例,φ
w
表示文本词分布的参数矩阵,φ
v
表示视觉词分布的参数矩 阵,p(w,v,e|z,φ
w
,φ
v
)是生成过程的条件概率;是表示类别信息的后验分布,其 中,λ是增广变量;
[0104]
步骤7、利用式(5)得到采样实体向量主题的概率:
[0105][0106]
式(5)中,表示去掉下标u对应实体向量的主题分配后,下标u对应实体向 量分配到第k个主题下的概率,表示去掉下标u对应实体向量的主题计数后第d篇文档 中第k个主题下的计数;α为狄利克雷先验;c
l
(x)表示vmf分布的系数函数,且 其中,i
l
(
·
)表示修正的l阶第一类贝塞尔函数;||.||表示向量的模; κ
k
是vmf分布的宽度参数;表示第d篇文档中去除下标u对应实体向量后分配到 第k个主题下的所有实体向量之和;表示第d篇文档中所有分配到第k个主题下的 实体向量之和;(μ0,c0)是vmf分布的先验参数;
[0107]
步骤8、利用式(6)采样vmf分布的宽度参数:
[0108][0109]
式(6)中,表示第k个主题的实体向量计数;lognormal(
·
)表示对数正态分布的概率密 度函数;为对数正态分布的先验参数;
[0110]
步骤9、利用式(7)采样判别系数η:
[0111]
q(η|z,λ)
∝
n(μ,σ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0112]
式(7)中,判别系数η的先验服从高斯分布,即p0(η
k
)=n(0,σ2),其中,σ是一个非零 参数;μ表示均值,σ表示协方差矩阵,并有:
[0113][0114]
式(8)中,表示第d篇文档的主题经验比例;上标t表示转置;i表示单位矩阵。
[0115]
步骤10、利用式(9)采样文本词的主题:
[0116][0117]
式(9)中,表示文本模态中去掉下标i对应文本词的主题后的主题向量;w
i
=t0表示文 本词w
i
对应文本字典中第t0个词项;表示去掉下标i对应文本词的主题计数后第k个主 题下属于第t0个词项的单词计数;表示去掉下标i对应文本词的主题计数后第d篇文档 中第k个主题下的计数;α,β都为狄利克雷先验;为第d篇文档在第l个类别下的增广值; 表示第d篇文档中的文本词个数;η
l,k
表示第l个类别对应的判别向量的第k维的值;表 示排除下标i对应的词的判别式函数值,且
[0118]
步骤11、利用式(10)采样视觉词的主题:
[0119][0120]
式(9)中,表示视觉模态中去掉下标j对应视觉词的主题后的主题向量;v
j
=t1表示视 觉词v
j
对应视觉字典中第t1个词项;表示去掉下标j对应视觉词的主题计数后第k个主 题下属于第t1个词项的单词计数;表示去掉下标j对应视觉词的主题计数后第d篇文档 中第k个主题下的计数;表示第d篇文档中的视觉词个数;表示排除下标j
对应的词的 判别式函数值,且
[0121]
步骤12、利用式(11)采样第d篇文档的增广值变量λ
d
:
[0122][0123]
式(11)中,gig(x;p,a,b)是广义逆高斯分布;
[0124]
步骤13、在吉布斯采样的过程中,利用式(12)估计主题分布参数θ
d
、文本模态的词分布 参数和视觉模态的词分布参数
[0125][0126]
式(10)中,分别为第d篇文档中的文本词、视觉词以及实体向量的个数,k 为主题数,m
w
表示文本词典的长度,m
v
表示视觉词典的长度;n
d,k
表示第d篇文档中第k个 主题下的单词及实体向量计数,表示文本模态中第k个主题下第t0个词项的单词计数,表示文本模态中第k个主题下总的单词计数,表示视觉模态中第k个主题下第t1个词项的 单词计数,表示视觉模态中第k个主题下总的单词计数;
[0127]
步骤14、利用式(13)预测文档属于判别式函数值最大的单一类别:
[0128][0129]
式(13)中,l是类别数目。
[0130]
综上所述,本方法针对现有的基于主题模型的网络媒体事件检测方法的可解释性不足的 问题,本发明能够很好的解决大规模多模态网络媒体事件的检测问题,此外,由于充分利用 了语料内部和外部的知识,使得主题模型能够得到具有可解释性的主题。
技术特征:
1.一种语义和知识扩展主题模型的网络媒体事件的类别检测方法,其特征包括:步骤1、获取网络媒体事件的数据集,并对数据集中每篇文档的文本数据进行分句分词、词形还原、词性标注的预处理,从而构建文本字典;步骤2、对所述数据集中每篇文档相应的图像数据并进行分块处理,将分块后的每个小块作为一个视觉单词,提取每个视觉单词的图像特征,从而构建视觉词字典;步骤3、利用式(1)构建网络媒体事件的分类损失函数:式(1)中,q表示后验分布,l()表示后验分布q的对数似然的上界,c表示正则化参数,d表示所述数据集中的文档数,l表示网络媒体事件的类别数,ε
q
[]表示关于后验分布q的数学期望,表示第d篇文档属于第l个类别的铰链损失函数,并有:式(2)中,η
l
表示第l个类别的判别系数,上标t表示转置,ι表示预定义的代价参数,表示第d篇文档的主题经验比例,表示第d篇文档是否属于第l个类别的二分类标签,并有:式(3)中,y
d
表示第d篇文档的实际类别标签;步骤4、数据的生成过程:步骤4.1、从先验参数为α的狄利克雷分布中采样第d篇文档的主题分布参数θ
d
;步骤4.2、对于第k个主题:(1)从先验参数为β
w
的狄利克雷分布中采样数据集所对应的文本模态的词分布(2)从先验参数为β
v
的狄利克雷分布中采样数据集所对应的视觉模态的词分布(3)从先验参数为(μ0,c0)的vmf分布中采样位置参数μ
k
;(4)从先验参数为的对数正态分布中采样vmf分布的宽度参数κ
k
;步骤4.3、令u=(d,m0)表示第d篇文档的第m0个实体向量的下标:(1)从主题分布参数为θ
d
的多项式分布中采样一个主题(2)从参数为的vmf分布中采样第d篇文档的第m0个实体向量e
u
;步骤4.4、令i=(d,m1)表示第d篇文档的第m1个文本词的下标:(1)从主题分布参数为θ
d
的多项式分布中采样一个主题(2)根据第m1个文本词w
i
的词性先验p,从参数为的多项式分布中采样s
p
次第m1个文本词w
i
;步骤4.5、令j=(d,m2)表示第d篇文档的第m2个视觉词的下标:(1)从主题分布参数为θ
d
的多项式分布中采样一个主题
(2)从参数为的多项式分布中采样第d篇文档的第m2个视觉词v
j
;步骤4.6、采样第d篇文档的实际类别标签y
d
:(1)对于判别系数η,依次从参数为(0,σ2)的正态分布中采样其第k个分量η
k
;(2)从参数为的max
‑
margin分布中采样第d篇文档的实际类别标签y
d
;步骤5、利用生成过程构建如式(4)所示的联合分布q(η,λ,z,θ,φ
w
,φ
v
):式(4)中,ψ(y,w,v,e)表示归一化常数,其中,y表示类别变量,w表示文本词向量,v表示视觉词向量,e表示知识实体矩阵;p0(η,z,θ,φ
w
,φ
v
)表示先验分布,其中,z表示主题分配向量,θ表示主题比例,φ
w
表示文本词分布的参数矩阵,φ
v
表示视觉词分布的参数矩阵,p(w,v,e|z,φ
w
,φ
v
)是生成过程的条件概率;是表示类别信息的后验分布,其中,λ是增广变量;步骤6、利用式(5)得到采样实体向量主题的概率:式(5)中,表示去掉下标u对应实体向量的主题分配后,下标u对应实体向量分配到第k个主题下的概率,表示去掉下标u对应实体向量的主题计数后第d篇文档中第k个主题下的计数;α为狄利克雷先验;c
l
(x)表示vmf分布的系数函数,||.||表示向量的模;κ
k
是vmf分布的宽度参数;e
ii
表示第d篇文档中第ii个实体向量;(μ0,c0)是vmf分布的先验参数;步骤7、利用式(6)采样vmf分布的宽度参数:式(6)中,表示第k个主题的实体向量计数;lognormal(
·
)表示对数正态分布的概率密度函数;为对数正态分布的先验参数;步骤8、利用式(7)采样判别系数η:q(η|z,λ)
∝
n(μ,σ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)式(7)中,判别系数η的先验服从高斯分布,即p0(η
k
)=n(0,σ2),其中,σ是一个非零参数;μ表示均值,σ表示协方差矩阵,并有:式(8)中,表示第d篇文档的主题经验比例;上标t表示转置;i表示单位矩阵;步骤9、利用式(9)采样文本词的主题:
式(9)中,表示文本模态中去掉下标i对应文本词的主题后的主题向量;w
i
=t0表示文本词w
i
对应文本字典中第t0个词项;表示去掉下标i对应文本词的主题计数后第k个主题下属于第t0个词项的单词计数;表示去掉下标i对应文本词的主题计数后第d篇文档中第k个主题下的计数;α,β都为狄利克雷先验;为第d篇文档在第l个类别下的增广值;表示第d篇文档中的文本词个数;η
lk
表示第l个类别对应的判别向量的第k维的值;表示排除下标i对应的词的判别式函数值,且步骤10、利用式(10)采样视觉词的主题:式(9)中,表示视觉模态中去掉下标j对应视觉词的主题后的主题向量;v
j
=t1表示视觉词v
j
对应视觉字典中第t1个词项;表示去掉下标j对应视觉词的主题计数后第k个主题下属于第t1个词项的单词计数;表示去掉下标j对应视觉词的主题计数后第d篇文档中第k个主题下的计数;表示第d篇文档中的视觉词个数;表示排除下标j对应的词的判别式函数值,且步骤11、利用式(11)采样第d篇文档的增广值变量λ
d
:式(11)中,gig(x;p,a,b)是广义逆高斯分布;步骤12、在吉布斯采样的过程中,利用式(12)估计主题分布参数θ
d
、文本模态的词分布参数和视觉模态的词分布参数和视觉模态的词分布参数式(10)中,分别为第d篇文档中的文本词、视觉词以及实体向量的个数,k为主题数,m
w
表示文本词典的长度,m
v
表示视觉词典的长度;n
d,k
表示第d篇文档中第k个主题下的单词及实体向量计数,表示文本模态中第k个主题下第t0个词项的单词计数,表示文本模态中第k个主题下总的单词计数,表示视觉模态中第k个主题下第t1个词项的
单词计数,表示视觉模态中第k个主题下总的单词计数;步骤13、利用式(13)预测文档属于判别式函数值最大的单一类别:式(13)中,l是类别数目。
技术总结
本发明公开了一种语义和知识扩展主题模型的网络媒体事件的类别检测方法,其步骤包括:1、扩展一个有监督主题模型(MedLDA),在一个统一的模型中共同建模网络媒体事件的多模态数据以及标签信息;2、网络媒体事件的多模态数据共享一个主题空间,并通过词性标注技术引入内部语义,通过扩展一个知识模态引入外部语义。本发明通过引入网络媒体事件的内部语义和外部知识,有效挖掘出网络媒体事件中的语义单词,学习到具有可解释性的优质主题,以实现准确高效的规模多模态网络媒体事件类别检测。确高效的规模多模态网络媒体事件类别检测。确高效的规模多模态网络媒体事件类别检测。
技术研发人员:薛峰 缪乃阳 张涛
受保护的技术使用者:合肥工业大学
技术研发日:2021.04.06
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-14329.html