本发明涉及渔业数据处理,尤其涉及一种基于深度学习的渔业中文命名实体识别方法及系统。
背景技术:
1、命名实体识别(ner)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,它广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域。通常,命名实体识别任务被形式化为序列标记任务,并且通过预测每个单词或每个单词的标记来联合预测实体边界和实体类型。
2、中文文本中的歧义和不确定性,如一词多义、同音异义词等,可能会对ner模型的性能产生负面影响。例如,“海”可以指代海洋,也可以指代海鲜。渔业领域的实体之间可能存在复杂的关联性,如某个渔场可能只生产特定的鱼种。ner模型需要能够捕捉这些关联性,以便更准确地识别实体。
技术实现思路
1、本发明实施例提供一种基于深度学习的渔业中文命名实体识别方法及系统,通过改进后的基于transformer的渔业中文命名实体识别模型的自注意力机制,使得中文字符(词)直接与任意潜在词语交互,捕捉实体之间的关联性,从而更准确地识别实体。
2、本技术实施例的第一方面提供了一种基于深度学习的渔业中文命名实体识别方法,包括:
3、对进行预处理后的渔业领域文本进行特征提取,得到多个中文字符向量和多个中文词向量;在每个中文字符向量和每个中文词向量中,一个维度包含头位置信息,一个维度包含尾位置信息;
4、根据多个中文字符向量的头位置信息和尾位置信息、多个中文词向量的头位置信息和尾位置信息,得到各个中文字符向量和各个中文词向量之间的相对位置编码、各个中文字符向量和其他中文字符向量之间的相对位置编码、各个中文词向量和其他中文词向量之间的相对位置编码;
5、根据全部的相对位置编码,对全部中文字符向量和全部中文词向量进行融合,得到中文融合矩阵;
6、利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型;
7、通过所述渔业中文命名实体识别模型对待识别的文本进行命名实体识别。
8、在第一方面的一种可能的实现方式中,所述对进行预处理后的渔业领域文本进行特征提取,得到多个中文字符向量和多个中文词向量,具体包括:
9、使用分词工具对渔业领域文本数据进行分词;
10、对分词结果进行特征提取,得到多个特征向量;
11、根据各个特征向量对应中文字符或者中文词在渔业领域文本中的位置,分别给多个特征向量增加两个维度的位置信息,得到多个中文字符向量和多个中文词向量。
12、在第一方面的一种可能的实现方式中,所述根据多个中文字符向量的头位置信息和尾位置信息、多个中文词向量的头位置信息和尾位置信息,得到各个中文字符向量和各个中文词向量之间的相对位置编码、各个中文字符向量和其他中文字符向量之间的相对位置编码、各个中文词向量和其他中文词向量之间的相对位置编码,具体包括。
13、对每个中文字符向量或者中文词向量,计算该中文字符向量或者该中文词向量的头位置与其他中文字符向量或者其他中文词向量的头位置的距离差作为第一距离差;
14、对每个中文字符向量或者中文词向量,计算该中文字符向量或者该中文词向量的头位置与其他中文字符向量或者其他中文词向量的尾位置的距离差作为第二距离差;
15、对每个中文字符向量或者中文词向量,计算该中文字符向量或者该中文词向量的尾位置与其他中文字符向量或者其他中文词向量的头位置的距离差作为第三距离差;
16、对每个中文字符向量或者中文词向量,计算该中文字符向量或者该中文词向量的尾位置与其他中文字符向量或者其他中文词向量的尾位置的距离差作为第四距离差;
17、对所述第一距离差、所述第二距离差、所述第三距离差和所述第四距离差进行非线性编码,得到相对位置编码。
18、在第一方面的一种可能的实现方式中,所述对所述第一距离差、所述第二距离差、所述第三距离差和所述第四距离差进行非线性编码,得到相对位置编码,具体包括:
19、计算所述第一距离差、所述第二距离差、所述第三距离差和所述第四距离差的加权和;
20、对经过参数调整的所述加权和进行非线性激活函数处理,得到相对位置编码。
21、在第一方面的一种可能的实现方式中,所述根据全部的相对位置编码,对全部中文字符向量和全部中文词向量进行融合,得到中文融合矩阵,具体包括:
22、将各个中文字符向量和各个中文词向量分别作为一个行向量置入预设矩阵的各个空白行中;
23、在每个行向量的末尾添加上与该行向量对应的多个相对位置编码,得到初始融合矩阵;每一个相对位置编码占用所述预设矩阵的一列;
24、若两个行向量之间的相对位置编码小于预设编码阈值且两个行向量之间的相似度大于相似阈值,将处于后面的行向量删除,并将其余行向量中与被删除行向量对应的相对位置编码删除,得到中文融合矩阵。
25、在第一方面的一种可能的实现方式中,所述若两个行向量之间的相对位置编码小于预设编码阈值且两个行向量之间的相似度大于相似阈值,将处于后面的行向量删除,并将其余行向量中与被删除行向量对应的相对位置编码删除,得到中文融合矩阵之前,还包括:
26、根据对所述渔业领域文本进行渔业中文命名实体标注后的标注结果,统计渔业中文字符向量和渔业中文词向量在全部向量的占比作为相似阈值。
27、在第一方面的一种可能的实现方式中,所述利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型,具体包括:
28、根据所述中文融合矩阵中的全部相对位置编码,更新transformer架构的深度学习网络自注意力层参数;
29、根据所述深度学习网络的自注意力层和前馈网络层的输出序列,得到预测标签;
30、使用交叉熵损失函数计算模型预测和真实标签之间的差异值,并根据所述差异值更新深度学习网络,得到渔业中文命名实体识别模型。
31、在第一方面的一种可能的实现方式中,所述根据所述差异值更新深度学习网络,得到渔业中文命名实体识别模型,具体包括:
32、使用反向传播和adam优化算法更新深度学习网络的参数,使所述差异值小于预设差异阈值。
33、在第一方面的一种可能的实现方式中,利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型之后,还包括:
34、根据精确率、召回率和f1分数评估渔业中文命名实体识别模型的识别效果,若不满足预设识别条件,根据其他的渔业领域文本提取得到新的中文融合矩阵对transformer架构的深度学习网络进行重新训练,得到新的渔业中文命名实体识别模型。
35、本技术实施例的第二方面提供了一种基于深度学习的渔业中文命名实体识别系统,包括:
36、提取模块,用于对进行预处理后的渔业领域文本进行特征提取,得到多个中文字符向量和多个中文词向量;在每个中文字符向量和每个中文词向量中,一个维度包含头位置信息,一个维度包含尾位置信息;
37、编码模块,用于根据多个中文字符向量的头位置信息和尾位置信息、多个中文词向量的头位置信息和尾位置信息,得到各个中文字符向量和各个中文词向量之间的相对位置编码、各个中文字符向量和其他中文字符向量之间的相对位置编码、各个中文词向量和其他中文词向量之间的相对位置编码;
38、融合模块,用于根据全部的相对位置编码,对全部中文字符向量和全部中文词向量进行融合,得到中文融合矩阵;
39、训练模块,用于利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型;
40、识别模块,用于通过所述渔业中文命名实体识别模型对待识别的文本进行命名实体识别。
41、相比于现有技术,本发明实施例提供了一种基于深度学习的渔业中文命名实体识别方法及系统,通过对全部中文字符向量和全部中文词向量进行融合,得到中文融合矩阵。中文融合矩阵是一种含有相对位置编码的词嵌入向量集合,相对位置编码清晰地反映了原文本结构和各个潜在实体之间的交互关系,利用中文融合矩阵对一种transformer架构的深度学习网络进行改进,利用transformer 的自注意力机制可以使得字符直接与任意潜在词语交互,包括自包含词语(例如“渔”的自包含词语有“渔民”与“渔民与海洋”)。综上,本发明通过渔业中文命名实体识别模型的自注意力机制解构待识别的文本中中文字符、中文字词之间的实体关联性,以便更准确地区分实体。
1.一种基于深度学习的渔业中文命名实体识别方法,其特征在于,包括:
2.如权利要求1所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述对进行预处理后的渔业领域文本进行特征提取,得到多个中文字符向量和多个中文词向量,具体包括:
3.如权利要求1所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述根据多个中文字符向量的头位置信息和尾位置信息、多个中文词向量的头位置信息和尾位置信息,得到各个中文字符向量和各个中文词向量之间的相对位置编码、各个中文字符向量和其他中文字符向量之间的相对位置编码、各个中文词向量和其他中文词向量之间的相对位置编码,具体包括:
4.如权利要求3所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述对所述第一距离差、所述第二距离差、所述第三距离差和所述第四距离差进行非线性编码,得到相对位置编码,具体包括:
5.如权利要求1所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述根据全部的相对位置编码,对全部中文字符向量和全部中文词向量进行融合,得到中文融合矩阵,具体包括:
6.如权利要求5所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述若两个行向量之间的相对位置编码小于预设编码阈值且两个行向量之间的相似度大于相似阈值,将处于后面的行向量删除,并将其余行向量中与被删除行向量对应的相对位置编码删除,得到中文融合矩阵之前,还包括:
7.如权利要求1所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型,具体包括:
8.如权利要求7所述基于深度学习的渔业中文命名实体识别方法,其特征在于,所述根据所述差异值更新深度学习网络,得到渔业中文命名实体识别模型,具体包括:
9.如权利要求1所述基于深度学习的渔业中文命名实体识别方法,其特征在于,利用中文融合矩阵对transformer架构的深度学习网络进行训练,得到渔业中文命名实体识别模型之后,还包括:
10.一种基于深度学习的渔业中文命名实体识别系统,其特征在于,包括: