一种基于知识引导的方面级情感分析模型训练方法与流程

专利2022-05-09  77


本发明属于细粒度情感分析技术领域,具体涉及一种基于知识引导的方面级情感分析模型训练方法。



背景技术:

随着深度学习的提出和快速发展,基于深度学习的方面级情感分析模型训练技术已经取得阶段性的进展。然而,由于方面级情感分析模型训练数据标注困难,目前的方面级情感分析数据集普遍存在样本数量不足的问题,因此方面级情感分析模型训练仍然面临巨大挑战。目前,业界主要使用知识迁移训练方法来解决此类问题,具体而言,此类训练方法首先在样本数量充足的句子级情感分析数据集(预训练数据集)上进行预训练,得到学习到丰富语义知识的预训练模型;然后在样本数量较少的方面级情感分析数据集(目标任务数据集)上对预训练模型进行微调,将预训练模型中的语义知识迁移到目标任务模型,得到最终的方面级情感分析模型。这类训练方法可以在一定程度上缓解训练样本不足的问题,但是难以取得理想的训练效果。因为预训练数据集和目标任务数据集之间往往存在着巨大的领域差异,直接在目标任务数据集上对预训练模型进行微调,会造成预训练得到的语义知识被灾难性遗忘,从而极大的影响了方面级情感分析模型训练效果。

为了解决上述问题,少数发明尝试在知识迁移训练方法中进一步引入领域自适应的技术,以缩小预训练数据集和目标任务数据集之间的领域差异。具体而言,这类发明通过对齐预训练数据集和目标任务数据集的知识空间,学习到领域不变的语义知识,从而缩小二者之间的领域差异,进而缓解模型微调过程中的语义知识被灾难性遗忘的问题。这些发明虽然能解决上述知识遗忘的问题,但是这些发明仅适用于特定的网络结构,例如循环神经网络和注意力机制网络,而对于其他网络结构适应性较差。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于知识引导的方面级情感分析模型训练方法。该方法创新性地提出了一种能适应于任意方面级情感分析网络结构的模型训练框架,在使用知识迁移训练策略解决训练样本不足问题的同时,可以有效地缓解预训练数据集和目标任务数据集之间存在的领域差异问题,从而有效提升语义知识迁移效果。

为了实现上述发明目的,本发明所采用的技术方案是:一种基于知识引导的方面级情感分析模型训练方法,其特征在于,包括以下步骤:

(1)在样本数量充足的句子级情感分析数据集上对方面级情感分析模型进行预训练,得到方面级情感分析预训练模型m1,该模型在句子级情感分析数据集中学习得到丰富的语义知识;

(2)使用基于知识引导的训练策略,在方面级情感分析数据集上对步骤(1)中获得的预训练模型m1进行再次训练,得到方面级情感分析预训练模型m2。具体而言,知识引导策略中引入了一个导航者模型和一个学习者模型,其中导航者模型学习速率快,学习者模型学习速率慢。通过导航者模型引导学习者模型的训练更新,使学习者模型在学习到目标任务数据集领域知识的同时,能够保持先前学习到的预训练数据集领域知识,最终在知识引导损失函数的约束下,学习得到领域不变的知识。训练得到的学习者模型即为预训练模型m2;

(3)最后在方面级情感分析数据集上对步骤(2)中训练得到的模型m2进行微调,将学习得到的领域不变知识迁移至方面级情感分析模型中,从而得到最终的高性能方面级情感分析模型mfinal。

而且,所述步骤(1)中在句子级情感分析数据集上训练方面级情感分析预训练模型的具体实施方式如下,

11)使用基于语法规则的方面词提取方法,对句子级情感分析数据集中样本进行方面词提取,获得伪方面词,即将句子级情感分析数据集转换成伪方面级情感分析数据集;

12)选用任一方面级情感分析模型的网络作为预训练网络,考虑到提取到的伪方面级情感分析数据集中方面词和关键词的位置信息存在较大噪声,将预训练网络中位置信息处理模块去除(如果该模型本身没有这一模块,则不用去除,其中位置信息处理模块的主要原理是基于距离方面词越近的词语越可能是与其有关的情感词。通过给方面词距离相近的词语赋予高权重,给远距离的词语赋予低权重,得到帮助模型提取到关键情感特征的目的。例如句子:“这家餐厅的味道不错,但是服务不是很好”,与方面词“味道”相近的“不错”被赋予更好的权重,从而缓解“很好”对模型的误导问题。近两年的方面级情感分析模型几乎都包含信息处理模块,是一种通用模块);

13)将伪方面级情感分析数据集中的文本输入到预训练网络,训练得到方面级情感分析预训练模型m1。

而且,所述步骤(2)中使用基于知识引导的训练策略对方面级情感分析预训练模型m1进行再次训练的具体实施方式如下,

21)分别构造一个导航者模型和一个学习者模型,二者具有相同的网络结构,且与预训练模型m1网络结构大致相似。具体而言,考虑到预训练数据集和目标任务数据集之间的标签类别存在差异,对预训练模型m1网络中最后的分类层进行了修改,得到新的导航者与学习者模型网络结构;

22)使用预训练模型m1对导航者模型和学习者模型进行参数初始化,即让他们的参数保持一致,其中由于导航者与学习者模型网络的分类层不同于预训练网络,所以导航者与学习者模型网络分类层的参数由随机初始化得到;

23)在方面级情感分析数据集上对导航者与学习者模型进行训练。具体而言,导航者模型根据反向传播算法进行参数更新,使用知识引导损失函数lg进行约束。该损失函数包含两部分,分别是交叉熵损失函数lc和一致性损失函数lr,计算如公式(1),

其中,y,pg和pl分别表示方面级情感分析数据集真实标签、导航者模型预测结果和学习者模型预测结果;i和j分别表示数据集中样本索引和标签类别索引;α是平衡参数,控制损失函数的权重,在实现过程中设为0.7。分类损失函数用于指导导航者模型学习目标任务领域的语义知识,一致性损失函数用于缓解先前学习到的语义知识被灾难性遗忘的问题。

学习者模型不通过反向传播进行参数更新,而是使用滑动平均方法,根据导航者模型的参数进行更新,具体更新方法见公式(2),

其中,θl和θg分别表示学习者模型和导航者模型的参数;t表示第t次训练迭代,β是控制参数,控制学习者模型更新速度,在实现过程中设为0.99。

通过知识引导损失函数的约束,学习者模型最终能够学习到预训练数据集领域和目标任务数据集领域之间共同的语义知识;此外,由于学习者模型是在导航者模型的指导下训练得到,而不是直接通过反向传播得到,所以在训练得到学习者模型的过程中,能够有效地避免预训练模型中的语义知识被灾难性遗忘。

而且,所述步骤(3)中在方面级情感分析数据集上对模型m2进行微调,得到最终的高性能的方面级情感分析模型mfinal的具体实施方式如下,

31)构造最终的方面级情感分析模型,其网络结构与模型m2的网络结构相比,除了重新引入了位置信息处理模块之外(仅当原始选择的任一方面级情感分析模型本身具有位置信息处理模块时),其他结构保持一致;

32)使用模型m2对构造得到的方面级情感分析模型进行参数初始化,然后在方面级情感分析目标数据集(即方面级情感分析数据集)上对该模型进行微调,最终训练得到高性能的方面级情感分析模型mfinal。

与现有技术相比,本发明的优点和有益效果如下:

1)提出了一种新颖的基于知识引导的模型训练方法,该方法将句子级情感分析数据集学习到的丰富语义知识迁移到目标数据集中,并通过知识引导策略成功缓解二者之间的领域差异,有效避免知识灾难性遗忘的问题,从而达到更好的知识迁移效果。

2)相比于现有技术,本发明提出的模型训练方法具有实现简单、适用性广泛的优点。该方法对于任一方面级情感分析模型都适用,在不对模型结构进行较大改动的前提下,就能显著提高模型训练效果。

3)与现有技术相比,本发明的模型训练方法能够有效提高模型的鲁棒性和分类性能,训练的模型在多个方面级情感分析公开数据集上实现了最优的效果。

附图说明

图1为本发明实施例的模型训练方法图示。

图2为本发明实施例情感分析模型测试结果图示。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

如图1,本发明所采用的技术方案是一种基于知识引导的方面级情感分析模型训练方法,包括以下步骤:

(1)使用基于语法规则的方面词提取方法,提取句子级情感分析数据集中每个样本的方面词,将该数据集转换成伪方面级情感分析数据集;

(2)选用任一方面级情感分析模型的网络作为预训练网络,并将预训练网络中位置信息处理模块去除,然后在伪方面级情感分析数据集上进行训练,得到方面级情感分析预训练模型m1;

(3)构造具有相同网络结构的导航者模型和学习者模型,其网络结构与(2)中预训练模型m1网络结构相比,除了最后的分类层不同,其他的保持一致。并使用预训练模型m1对导航者模型和学习者模型分别进行初始化;

(4)在方面级情感分析数据集上对导航者模型和学习者模型进行训练,学习者模型的训练结果即为第二阶段预训练模型m2。具体而言,导航者模型通过反向传播算法进行参数更新,并使用知识引导损失函数lg进行约束,该损失函数包含两部分,分别是交叉熵损失函数lc和一致性损失函数lr,计算如公式(1),

lg=α*lc (1-α)*lr

其中,y,pg和pl分别表示方面级情感分析数据集真实标签、导航者模型预测结果和学习者模型预测结果;i和j分别表示数据集中样本索引和标签类别索引;α是平衡参数,控制损失函数的权重,α取为0.7。

值得注意的是,学习者模型不通过反向传播进行参数更新,而是使用滑动平均方法,根据导航者模型的参数进行更新,具体方法见公式(2),

其中,θl和θg分别表示学习者模型和导航者模型的参数;t表示第t次训练迭代,β是控制参数,控制学习者模型更新速度,β取为0.99。

(5)构造最终的方面级情感分析模型,其网络结构与模型m2的网络结构相比,除了重新引入了位置信息处理模块之外,其他结构保持一致。使用(4)中的模型m2对该情感分析模型进行初始化。

(6)在方面级情感分析目标数据集上,对情感分析模型进行微调,得到最终的高性能的方面级情感分析模型mfinal。

本发明提出的方面级情感分析模型训练方法适用于任一方面级情感分析模型,在本实施例中,选用方面级情感分析任务中基于卷积神经网络的经典模型gcae来说明该模型训练方法应用于不同模型的具体实施过程。具体实施细节包括以下:

首先将gcae网络作为预训练网络,在句子级情感分析数据集上训练得到预训练模型m1(由于gcae模型中不含位置信息处理模块,所以在此实施例中不用去除该模块);然后,考虑到预训练数据集和目标任务数据集中标签类别数目不一致,对gcae网络中的分类层输出维度进行修改,得到新的gcae网络,并将其作为导航者模型和学习者模型的网络结构;其次,使用预训练模型m1对导航者模型和学习者模型进行参数初始化,并使用基于知识引导的训练策略在目标任务数据集上对这两个模型进行训练,得到学习了丰富的领域不变知识的学习者模型,即第二阶段预训练模型m2;最后,将上述中分类层输出维度修改之后的gcae网络,作为最终的情感分析模型网络,并使用模型m2对其进行参数初始化,然后在目标任务数据集上进行微调得到最终的方面级情感分析gcae模型。

图2所示为方面级情感分析模型预测结果的可视化效果。具体而言,图中展示了本发明提出的模型训练方法在gcae模型上的提升效果:第一行表示使用常规的模型训练方法;第二行表示使用本发明提出的基于知识引导的训练方法。本发明能够有效地帮助方面级情感分析模型学习到丰富的语义知识,并帮助其提取到关键特征,最终有效地提升情感分析模型的分类性能。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。


技术特征:

1.一种基于知识引导的方面级情感分析模型训练方法,其特征在于,包括如下步骤:

(1)在样本数量充足的句子级情感分析数据集上对方面级情感分析模型进行预训练,得到方面级情感分析预训练模型m1,该模型在句子级情感分析数据集中学习得到丰富的语义知识;

(2)使用基于知识引导的训练策略,在方面级情感分析数据集上对步骤(1)中获得的预训练模型m1进行再次训练,得到方面级情感分析预训练模型m2;具体而言,知识引导策略中引入了一个导航者模型和一个学习者模型,其中导航者模型学习速率快,学习者模型学习速率慢,通过导航者模型引导学习者模型的训练更新,使学习者模型在学习到目标任务数据集领域知识的同时,能够保持先前学习到的预训练数据集领域知识,最终在知识引导损失函数的约束下,学习得到领域不变的知识,训练得到的学习者模型即为预训练模型m2;

(3)最后在方面级情感分析数据集上对步骤(2)中训练得到的模型m2进行微调,将学习得到的领域不变知识迁移至方面级情感分析模型中,从而得到最终的高性能方面级情感分析模型mfinal。

2.如权利要求1所述的一种基于知识引导的方面级情感分析模型训练方法,其特征在于:所述步骤(1)中在句子级情感分析数据集上训练方面级情感分析预训练模型的具体实施方式如下,

11)使用基于语法规则的方面词提取方法,对句子级情感分析数据集中样本进行方面词提取,获得伪方面词,即将句子级情感分析数据集转换成伪方面级情感分析数据集;

12)选用任一方面级情感分析模型的网络作为预训练网络,并将预训练网络中位置信息处理模块去除,如果预训练网络本身没有这一模块,则不用去除;

13)将伪方面级情感分析数据集中的文本输入到预训练网络,训练得到方面级情感分析预训练模型m1。

3.如权利要求1所述的一种基于知识引导的方面级情感分析模型训练方法,其特征在于:所述步骤(2)中使用基于知识引导的训练策略对方面级情感分析预训练模型m1进行再次训练的具体实施方式如下,

21)分别构造一个导航者模型和一个学习者模型,二者具有相同的网络结构,对预训练模型m1网络中最后的分类层进行了修改,得到新的导航者与学习者模型网络结构;

22)使用预训练模型m1对导航者模型和学习者模型进行参数初始化,其中由于导航者与学习者模型网络的分类层不同于预训练模型,所以导航者与学习者模型网络分类层的参数由随机初始化得到;

23)在方面级情感分析数据集上对导航者模型与学习者模型进行训练;具体而言,导航者模型根据反向传播算法进行参数更新,使用知识引导损失函数lg进行约束,该损失函数包含两部分,分别是交叉熵损失函数lc和一致性损失函数lr,计算如公式(1),

lg=α*lc (1-α)*lr

其中,y,pg和pl分别表示方面级情感分析数据集真实标签、导航者模型预测结果和学习者模型预测结果;i和j分别表示数据集中样本索引和标签类别索引;α是平衡参数,控制损失函数的权重;

学习者模型使用滑动平均方法,根据导航者模型的参数进行更新,具体更新方法见公式(2),

其中,θl和θg分别表示学习者模型和导航者模型的参数;t表示第t次训练迭代,β是控制参数。

4.如权利要求2所述的一种基于知识引导的方面级情感分析模型训练方法,其特征在于:所述步骤(3)中在方面级情感分析数据集上对模型m2进行微调,得到最终的高性能的方面级情感分析模型mfinal的具体实施方式如下,

31)构造最终的方面级情感分析模型,当预训练网络本身具有位置信息处理模块时,重新在该方面级情感分析模型中引入位置信息处理模块,其他结构与预训练模型m2保持一致;

32)使用预训练模型m2对构造得到的方面级情感分析模型进行参数初始化,然后在方面级情感分析数据集上对该模型进行微调,最终训练得到高性能的方面级情感分析模型mfinal。

5.如权利要求3所述的一种基于知识引导的方面级情感分析模型训练方法,其特征在于:α取为0.7,β取为0.99。

6.如权利要求2所述的一种基于知识引导的方面级情感分析模型训练方法,其特征在于:12)中选用gcae网络作为预训练网络。

技术总结
本发明公开了一种基于知识引导的方面级情感分析模型训练方法,首先在句子级情感分析数据集上对方面级情感分析模型进行预训练,得到学习了丰富语义知识的预训练模型M1;然后,使用基于知识引导的训练策略,在方面级情感分析数据集上对预训练模型M1再次进行训练,通过学习速度快的导航者模型引导学习速度慢的学习者模型,使学习者模型(即模型M2)能够学习到预训练数据集和目标任务数据集之间领域不变的语义知识;最后,构造最终的方面级情感分析模型,并使用模型M2对其进行初始化,在方面级情感分析数据集上该情感分析模型进行微调,从而得到最终的高性能的方面级情感分析模型Mfinal。本发明在多个方面级情感分析公开数据集上实现了最优的效果。

技术研发人员:刘菊华;钟起煌
受保护的技术使用者:武汉大学
技术研发日:2021.04.01
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-8821.html

最新回复(0)