一种基于深度学习的文本语义提取方法与流程

专利2022-05-09  95



1.本发明属于人工智能领域,一种基于深度学习的文本语义提取方法。


背景技术:

2.随着近年来移动通信的蓬勃发展,碎片化时代不可避免地到来,生活节奏的 加快使得越来越多的人在阅读长篇文章时往往没有时间阅读完整。这就需要文本 语义提取工具将长篇文本提取出其中的语义,以最大限度地节省读者的时间,同 时读者也能够轻易地领会文章的主旨要义。但是,传统的基于循环神经网络 (recurrent neural networks,rnn)或卷积神经网络(convolutional neural networks, cnn)的语义提取模型效果较差,无法达到领会全文主旨的预期效果,近年来有学 者提出基于长短期记忆网络模型(long short

term memory,lstm)来进行文本语 义提取,使得语义还原效果较循环神经网络或卷积神经网络有了一定的提升。


技术实现要素:

3.为了克服传统语义提取方法模型运算时间长,语义还原效果较差的缺点,旨 在以深度学习为基础,本发明提出一种文本语义提取方法。本发明创新性地将 rnn以及自我注意力机制(self

attention)结合,对传统的单一序列到序列模型做 出了改进,能够最大程度上还原语义,在控制以及通信领域能够得到较好的应用。
4.本发明解决其技术问题所采用的技术方案是:
5.一种基于深度学习的文本语义提取方法,包括以下步骤:
6.1)在预处理阶段中的操作如下:将所要传输的句子s标准化为词数个数为n, 参数n可以自行设定;然后将所要传输的句子输入jieba中文分词模型,进行分词 处理,得到w1,w2,w3,
···
,w
n
,接着将w1,w2,w3,
···
,w
n
输入word2vec中文预训练模型, 最后输出每一个单词所对应的词向量,用e1,e2,e3,
···
,e
n
表示,词向量组e1,e2,e3,
···
,e
n
记作e;
7.2)将词向量e1,e2,e3,
···
,e
n
输入单层循环神经网络,保留最后时刻循环神经网 络隐藏层的输出向量,记为t1;该循环神经网络模型的权重由电影评论数据集训 练得到;
8.3)将词向量组e1,e2,e3,
···
,e
n
输入至编码器,编码器分为相同两层。在编码器 第一层中,词向量组首先进入自我注意力机制,计算过程说明如下:
9.q
i
=w
q
×
e,i∈[1,n]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0010]
k
i
=w
k
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0011]
v
i
=w
v
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0012]
w
q
,w
k
,w
v
:维数为300的方阵,元素由系统模型经过训练得到, e:词向量组e1,e2,e3,
···
,e
n

[0013]
4)对于每一个q
i
(i∈[1,n]),都令其与每一个k
i
(i∈[1,n])进行点乘运算,对于 q1分别得到α
1,1

1,2

1,3
,
···

1,n
,将α
1,1

1,2

1,3
,
···

1,n
经过soft

max层进行归
一化操 作,得到其中:
[0014][0015]
再将分别与各自对应的v1,v2,v3,
···
,v
n
相乘,将所得结果累加得 到向量b1;将上述操作进行n次,得到向量b1,b2,b3,
···
,b
n
,公式如下:
[0016][0017]
至此,完成第一次自我注意力机制操作;将自我注意力机制操作生成的向量称为 思想向量,如b1,b2,b3,
···
,b
n

[0018]
5)将思想向量b1,b2,b3,
···
,b
n
分别输入单层前馈神经网络ffnn,分别得到向 量f1,f2,f3,
···
,f
n
,维数与b1,b2,b3,
···
,b
n
相同;
[0019]
6)向量f1,f2,f3,
···
,f
n
进入编码器第二层,重复进行第一层中的自我注意力 操作以及经过前馈神经网络,由第二层前馈神经网络输出向量组将向量分别与向量t1相加,最终得到编码器第二层输出的向量组 u1,u2,u3,
···
,u
n
,将u1,u2,u3,
···
,u
n
分别乘以维数为300的方阵分别得到向量 [0020]
7)进入解码器部分,解码器同样分为两层,第一层中,首先将由一个维数 为300的初始种子词向量<start>输入至解码器开始进行解码操作;
[0021]
8)由第一个目标单词词向量作为解码器第二次解码的输入,同理将第一个 目标单词的词向量乘以维数为300的方阵w
q
',w
k
',w
v
',得到对应向量m
q
,m
k
,m
v
保留以进行后续操作;
[0022]
9)第二个目标单词作为解码器第三次解码的输入,后续重复上述解码操作 步骤,直至输出所有目标单词,从而得到预测句子
[0023]
10)通过最小化损失函数来训练模型参数,模型参数包括矩阵元素与神经网 络权重。
[0024]
进一步,所述步骤7)中,计算过程说明如下:初始种子词向量<start>将进行 自我注意力机制操作,所得思想向量记为m;再进行decoder

encoder attention 操作,方法是:将向量m乘以维数为300的方阵得到向量q
m
,将向量q
m
分 别与向量进行点乘操作,得到公式如下:
[0025][0026]
:向量u
i
与方阵相乘所得向量;
[0027]
q
m
:向量m与方阵相乘所得向量;
[0028]
将输入soft

max层进行归一化操作得到再将分 别与各自对应的相乘,所得结果相加得到思想向量r1,向量r1再经 过前馈神经网络ffnn得到向量向量进入解码器第二层,第二层中重复 第一层的操作,最后输出概率向量,概率最大的对应为第一个目标单词。
[0029]
再进一步,所述步骤8)中,第二次解码操作说明如下:将向量m
q
,m
k
,m
v
与 初始种子词向量进行自我注意力机制操作,得到第一个目标单词词向量对应的 思想向量h,将h乘以维数为300的方阵得到向量q
h
,将向量q
h
分别与向 量进行点乘操作,得到γ
i
(i∈[1,n]),公式如下:
[0030][0031]
:向量u
i
与方阵相乘所得向量;
[0032]
q
h
:思想向量h与方阵相乘所得向量;
[0033]
再将γ
i
(i∈[1,n])进行soft

max归一化操作得到将分别与各自对应的 相乘,所得结果相加得到思想向量r2,向量r2在经过前馈神经网络 ffnn得到向量向量进入解码器第二层,第二层中重复第一层的操作, 最后输出概率向量,概率最大的对应为第二个目标单词。
[0034]
更进一步,所述步骤10)中,损失函数定义为:
[0035][0036]
q(w
l
):第l个单词w
l
出现在输入句子s中的真实概率;
[0037]
p(w
l
):第l个单词w
l
在预测句子中出现的预测概率。
[0038]
本发明的有益效果为:本发明创新性地将循环神经网络与自我注意机制融合, 对传统的单一序列到序列模型做出了改进,以达到较好的语义提取效果,使得读 者得到良好的阅读体验。
附图说明
[0039]
图1是基于深度学习的文本语义提取系统模型示意图,主要由编码器(encoder) 以及解码器(decoder)组成,其中编码器包含以下部分:jieba中文分词模型, word2vec模型,循环神经网络(rnn),self

attention机制,前馈神经网络(ffnn); 解码器包含以下部分:self

attention机制,decoder

encoder attention机制,前馈 神经网络(ffnn)。
具体实施方式
[0040]
下面结合附图对于本发明作进一步详细描述。
[0041]
参照图1,一种基于深度学习的文本语义提取方法,实现该方法能最大程度 上还原目标文本的语义,本发明可以应用于控制和通信领域,如图1所示,针对 该场景对文本语
义的提取方法包括以下步骤:
[0042]
1)在预处理阶段中的操作如下:将所要传输的句子s标准化为词数个数为n, 参数n可以自行设定,然后将所要传输的句子输入jieba中文分词模型,进行分词 处理,得到w1,w2,w3,
···
,w
n
,接着将w1,w2,w3,
···
,w
n
输入word2vec中文预训练模型, 最后输出每一个单词所对应的词向量,用e1,e2,e3,
···
,e
n
表示,词向量组 e1,e2,e3,
···
,e
n
记作e;
[0043]
2)将词向量e1,e2,e3,
···
,e
n
输入单层循环神经网络,保留最后时刻循环神经网 络隐藏层的输出向量,记为t1。该循环神经网络模型的权重由电影评论数据集训 练得到;
[0044]
3)将词向量组e1,e2,e3,
···
,e
n
输入至编码器,编码器分为相同两层,在编码器 第一层中,词向量组首先进入自我注意力机制(self

attention),计算过程说明如下:
[0045]
q
i
=w
q
×
e,i∈[1,n]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0046]
k
i
=w
k
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0047]
v
i
=w
v
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0048]
w
q
,w
k
,w
v
:维数为300的方阵,元素由系统模型经过训练得到;
[0049]
e:词向量组e1,e2,e3,
···
,e
n

[0050]
4)对于每一个q
i
(i∈[1,n]),都令其与每一个k
i
(i∈[1,n])进行点乘运算,对于 q1,分别得到α
1,1

1,2

1,3
,
···

1,n
,将α
1,1

1,2

1,3
,
···

1,n
经过soft

max层进行归一化 操作,得到其中:
[0051][0052]
再将分别与各自对应的v1,v2,v3,
···
,v
n
相乘,将所得结果累加得 到向量b1。将上述操作进行n次,得到向量b1,b2,b3,
···
,b
n
,公式如下:
[0053][0054]
至此,完成第一次自我注意力机制操作,将自我注意力机制操作生成的向量称为 思想向量,如b1,b2,b3,
···
,b
n

[0055]
5)将思想向量b1,b2,b3,
···
,b
n
分别输入单层前馈神经网络ffnn,分别得到向 量f1,f2,f3,
···
,f
n
,维数与b1,b2,b3,
···
,b
n
相同;
[0056]
6)向量f1,f2,f3,
···
,f
n
进入编码器第二层,重复进行第一层中的自我注意力 操作以及经过前馈神经网络,由第二层前馈神经网络输出向量组将向量分别与向量t1相加,最终得到编码器第二层输出的向量组 u1,u2,u3,
···
,u
n
,将u1,u2,u3,
···
,u
n
分别乘以维数为300的方阵分别得到向量 [0057]
7)进入解码器部分,解码器同样分为两层,第一层中,首先将由一个维数 为300的
初始种子词向量<start>输入至解码器开始进行解码操作,计算过程说明 如下:初始种子词向量<start>将进行自我注意力机制操作,同步骤4)中所述,所 得思想向量记为m。下面进行decoder

encoder attention操作,方法是:将向量 m乘以维数为300的方阵得到向量q
m
;将向量q
m
分别与向量进行点乘操作,得到公式如下:
[0058][0059]
:向量u
i
与方阵相乘所得向量;
[0060]
q
m
:向量m与方阵相乘所得向量;
[0061]
将输入soft

max层进行归一化操作得到再将分 别与各自对应的相乘,所得结果相加得到思想向量r1,向量r1再经 过前馈神经网络ffnn得到向量向量进入解码器第二层,第二层中重复 第一层的操作,最后输出概率向量,概率最大的对应为第一个目标单词;
[0062]
8)由第一个目标单词词向量作为解码器第二次解码的输入,同理将第一个 目标单词的词向量乘以维数为300的方阵w
q
',w
k
',w
v
',得到对应向量m
q
,m
k
,m
v
保留以进行后续操作;第二次解码操作说明如下:将向量m
q
,m
k
,m
v
与初始种子 词向量进行自我注意力机制操作,得到第一个目标单词词向量对应的思想向量h, 将h乘以维数为300的方阵得到向量q
h
,将向量q
h
分别与向量进行点乘操作,得到γ
i
(i∈[1,n]),公式如下:
[0063][0064]
:向量u
i
与方阵相乘所得向量;
[0065]
q
h
:思想向量h与方阵相乘所得向量;
[0066]
再将γ
i
(i∈[1,n])进行soft

max归一化操作得到将分别与各自对应的 相乘,所得结果相加得到思想向量r2,向量r2在经过前馈神经网络 ffnn得到向量向量进入解码器第二层,第二层中重复第一层的操作, 最后输出概率向量,概率最大的对应为第二个目标单词;
[0067]
9)第二个目标单词作为解码器第三次解码的输入,后续重复上述解码操作 步骤,直至输出所有目标单词,从而得到预测句子
[0068]
10)可通过最小化损失函数来训练模型参数,所述模型参数包括矩阵元素与 神经网络权重,损失函数定义为:
[0069][0070]
q(w
l
):第l个单词w
l
出现在输入句子s中的真实概率;
[0071]
p(w
l
):第l个单词w
l
在预测句子中出现的预测概率。
[0072]
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说 明
用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本 发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技 术手段。

技术特征:
1.一种基于深度学习的文本语义提取方法,其特征在于,所述方法包括以下步骤:1)在预处理阶段中的操作如下:将所要传输的句子s标准化为词数个数为n,参数n可以自行设定;然后将所要传输的句子输入jieba中文分词模型,进行分词处理,得到w1,w2,w3,
···
,w
n
,接着将w1,w2,w3,
···
,w
n
输入word2vec中文预训练模型,最后输出每一个单词所对应的词向量,用e1,e2,e3,
···
,e
n
表示,词向量组e1,e2,e3,
···
,e
n
记作e;2)将词向量e1,e2,e3,
···
,e
n
输入单层循环神经网络,保留最后时刻循环神经网络隐藏层的输出向量,记为t1;该循环神经网络模型的权重由电影评论数据集训练得到;3)将词向量组e1,e2,e3,
···
,e
n
输入至编码器,编码器分为相同两层。在编码器第一层中,词向量组首先进入自我注意力机制,计算过程说明如下:q
i
=w
q
×
e,i∈[1,n]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)k
i
=w
k
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)v
i
=w
v
×
e
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)w
q
,w
k
,w
v
:维数为300的方阵,元素由系统模型经过训练得到,e:词向量组e1,e2,e3,
···
,e
n
;4)对于每一个q
i
(i∈[1,n]),都令其与每一个k
i
(i∈[1,n])进行点乘运算,对于q1分别得到α
1,1

1,2

1,3
,
···

1,n
,将α
1,1

1,2

1,3
,
···

1,n
经过soft

max层进行归一化操作,得到其中:再将分别与各自对应的v1,v2,v3,
···
,v
n
相乘,将所得结果累加得到向量b1;将上述操作进行n次,得到向量b1,b2,b3,
···
,b
n
,公式如下:至此,完成第一次自我注意力机制操作;将自我注意力机制操作生成的向量称为思想向量,如b1,b2,b3,
···
,b
n
;5)将思想向量b1,b2,b3,
···
,b
n
分别输入单层前馈神经网络ffnn,分别得到向量f1,f2,f3,
···
,f
n
,维数与b1,b2,b3,
···
,b
n
相同;6)向量f1,f2,f3,
···
,f
n
进入编码器第二层,重复进行第一层中的自我注意力操作以及经过前馈神经网络,由第二层前馈神经网络输出向量组将向量分别与向量t1相加,最终得到编码器第二层输出的向量组u1,u2,u3,
···
,u
n
,将u1,u2,u3,
···
,u
n
分别乘以维数为300的方阵分别得到向量7)进入解码器部分,解码器同样分为两层,第一层中,首先将由一个维数为300的初始种子词向量<start>输入至解码器开始进行解码操作;8)由第一个目标单词词向量作为解码器第二次解码的输入,同理将第一个目标单词的词向量乘以维数为300的方阵w
q
',w
k
',w
v
',得到对应向量m
q
,m
k
,m
v
保留以进行后续操作;
9)第二个目标单词作为解码器第三次解码的输入,后续重复上述解码操作步骤,直至输出所有目标单词,从而得到预测句子s^;10)通过最小化损失函数来训练模型参数,模型参数包括矩阵元素与神经网络权重。2.如权利要求1所述的一种基于深度学习的文本语义提取方法,其特征在于,所述步骤7)中,计算过程说明如下:初始种子词向量<start>将进行自我注意力机制操作,所得思想向量记为m;再进行decoder

encoder attention操作,方法是:将向量m乘以维数为300的方阵得到向量q
m
,将向量q
m
分别与向量进行点乘操作,得到公式如下:如下:向量u
i
与方阵相乘所得向量;q
m
:向量m与方阵相乘所得向量;将输入soft

max层进行归一化操作得到再将(i∈[1,n])分别与各自对应的相乘,所得结果相加得到思想向量r1,向量r1再经过前馈神经网络ffnn得到向量向量进入解码器第二层,第二层中重复第一层的操作,最后输出概率向量,概率最大的对应为第一个目标单词。3.如权利要求2所述的一种基于深度学习的文本语义提取方法,其特征在于,所述步骤8)中,第二次解码操作说明如下:将向量m
q
,m
k
,m
v
与初始种子词向量进行自我注意力机制操作,得到第一个目标单词词向量对应的思想向量h,将h乘以维数为300的方阵得到向量q
h
,将向量q
h
分别与向量进行点乘操作,得到γ
i
(i∈[1,n]),公式如下:(i∈[1,n]),公式如下:向量u
i
与方阵相乘所得向量;q
h
:思想向量h与方阵相乘所得向量;再将γ
i
(i∈[1,n])进行soft

max归一化操作得到将分别与各自对应的相乘,所得结果相加得到思想向量r2,向量r2在经过前馈神经网络ffnn得到向量向量进入解码器第二层,第二层中重复第一层的操作,最后输出概率向量,概率最大的对应为第二个目标单词。4.如权利要求3所述的一种基于深度学习的文本语义提取方法,其特征在于,所述步骤10)中,损失函数定义为:q(w
l
):第l个单词w
l
出现在输入句子s中的真实概率;p(w
l
):第l个单词w
l
在预测句子中出现的预测概率。
技术总结
一种基于深度学习的文本语义提取方法,对于一个较长文本输入,经过系统模型,能够最大程度上还原文本语义。本发明结合了循环神经网络(RNN)以及自我注意力机制(Self


技术研发人员:钱丽萍 钱江 沈铖潇 王寅生
受保护的技术使用者:浙江工业大学
技术研发日:2021.03.19
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-8997.html

最新回复(0)