本申请涉及人工智能技术领域,尤其涉及一种多模型训练方法、摘要分段方法、文本分段方法、装置、电子设备及存储介质。
背景技术:
文本分段和摘要抽取是对文本处理时常见的处理方式,现有技术中,文本摘要抽取模型和文本分段模型通常分别训练得到。具体的,现有的关于文本分段任务采用的技术是使用jaccard相似性分析器来找出连续句子之间的距离,如果他们之间的距离小于给定值,则将连续的句子组成一个段落。然而这种分段方式仅从句子间的相似性这一个单一维度进行分段,容易导致分段结果不准确。
现有的文本摘要抽取的方法中使用的文本摘要抽取模型通常只考虑句子的位置,抽取一个文本的前几句话形成摘要,这种方法比较适用于新闻类文本,文本摘要抽取模型的适用范围不广,对特定类型文本(如新闻类文本)以外的段落进行摘要抽取时,常常抽取结果不准确。综上,现有技术中获取文本分段模型和文本摘要抽取模型的获取效率不高,且模型准确率不高。
技术实现要素:
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种多模型训练方法、摘要分段方法、文本分段方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种多模型训练方法,所述方法包括:
获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
可选地,所述通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集,包括:
通过预设的特征提取模型的第一提取网络提取所述训练单句集中训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征;
将所述训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征组合后输入至所述特征提取模型的第二提取网络,得到所述训练单句的单句向量;
汇总得到的所有单句向量,得到所述训练单句向量集。
可选地,所述特征提取模型为bert模型。
可选地,所述利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,包括:
将所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征输入至预构建的文档特征提取模型,得到摘要训练单句向量集;
将所述摘要训练单句向量集输入所述文本摘要抽取模型进行第二训练。
可选地,所述得到训练单句集之后,所述方法还包括:
删除所述训练单句集中的停用词、语气词和重复词。
第二方面,本申请提供了一种摘要抽取方法,所述方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用如第一方面所述的多模型训练方法进行训练得到的。
第三方面,本申请提供了一种文本分段方法,所述方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用如第一方面所述的多模型训练方法进行训练得到的。
第四方面,本申请提供了一种多模型训练装置,所述装置包括:
训练文本获取模块,用于获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
第一特征提取模块,用于通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
第二特征提取模块,用于提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
训练模块,用于利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
第五方面,本申请提供了一种摘要抽取装置,所述装置包括:
摘要文本获取模块,用于获取待处理文本;
摘要抽取模块,用于将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用如第四方面所述的多模型训练装置进行训练得到的。
第六方面,本申请提供了一种文本分段装置,所述装置包括:
分段文本获取模块,用于获取待处理文本;
文本分段模块,用于将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用如第四方面任一项所述的多模型训练装置进行训练得到的。
第七方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项实施例所述的多模型训练方法的步骤,或实现第二方面所述的摘要抽取方法的步骤,或实现第三方面所述的文本分段方法的步骤。
第八方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的多模型训练方法的步骤,或实现第二方面所述的摘要抽取方法的步骤,或实现第三方面所述的文本分段方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的多模型训练方法、摘要分段方法、文本分段方法、装置、电子设备及计算机可读存储介质,可利用训练文本集得到的训练单句集同时对文本摘要抽取模型和文本分段模型进行训练,并且在训练文本分段模型时利用了训练单句的摘要编码特征,在文本摘要抽取模型时利用了段落编码特征,使分段模型训练时能够结合摘要编码特征进行学习,从而提高训练得到的分段模型的准确性,以及使摘要抽取模型训练时能够结合段落编码特征进行学习,提高训练得到的摘要抽取模型的准确性。因此,本发明实施例不仅可以提高获取训练得到的文本分段模型和摘要抽取模型的获取效率,并且能够提高训练得到的文本分段模型和摘要抽取模型的模型准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种多模型训练方法的流程示意图;
图2为本申请实施例提供的一种摘要抽取方法的流程示意图;
图3为本申请实施例提供的一种文本分段方法的流程示意图;
图4为本申请实施例提供的一种多模型训练装置的模块示意图;
图5为本申请实施例提供的一种摘要抽取装置的模块示意图;
图6为本申请实施例提供的一种文本分段装置的模块示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种多模型训练方法的流程示意图。在本实施例中,所述多模型训练方法包括:
s11、获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集。
本实施例中,所述训练文本集为用于进行模型训练的数据。具体的,本实施例中,训练文本集为文本类型的数据,具体的可以为中文文本,英文文本等。
本实施例中,训练文本集包含多个段落文本,该多个段落文本数据可以是从本地或网络爬取到的文本数据,段落文本中包含多个单句,且包含对段落文本中单句的段落标签以及摘要标签,段落标签以及摘要标签用于标注该句子是否为段落以及是否为摘要。
例如,每个句子senti都包含各自的标签
本实施例中,当训练文本集为中文时,可以通过标点符号将训练文本集中文本划分为单句。例如,当识别到“句号对应的字符符号”、“叹号对应的字符符号”、“问号对应的字符符号”等符号出现时,将提取该符号之前的文本为一个句子。
进一步的,所述得到训练单句集之后,所述方法还可以包括:
删除所述训练单句集中的停用词、语气词和重复词。
具体的,这里停用词指的是一些常见的词语(如“和”、“的”等)、数字、标点符号和其他特殊字符等。
本实施例中,通过对训练单句集进行信息删除,能够对单句进行精简,有利于得到简洁的单句,在保证训练准确率的情况下提升模型训练的效率。
s12、通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集。
本实施例中,对训练单句集进行特征提取可以包括,对训练单句集中训练单句进行分词,得到句子的分词表示,通过预设的特征提取模型对句子的分词表示进行特征提取。
具体的,可以采用分词器(tokenizer)对句子进行标记以获得句子中出现的所有词。并在每个句子的开头加上[cls],结尾加上[sep]。
本实施例中,所述特征提取模型是可以进行句子向量提取的模型,例如,特征提取模型为elmo模型。
优选的,所述特征提取模型为bert模型。bert能够捕获双向的上下文语境信息,由多个双向的transformer编码器层组成。
例如,将带有分隔符[cls]和[sep]的所有sent作为序列输入到模型bert中,因为序列的输入长度是不固定的,预先设置序列长度maxlen,如果输入的序列长度小于maxlen,就通过字符串补齐确保长度统一,超出maxlen就对序列进行截断,分成多次(如两次)进行输入。
优选的,所述通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集,包括:
通过预设的特征提取模型的第一提取网络提取所述训练单句集中训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征;
将所述训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征组合后输入至所述特征提取模型的第二提取网络,得到所述训练单句的单句向量;
汇总得到的所有单句向量,得到所述训练单句向量集。
本实施例中,特征提取模型包括多个提取网络,例如,第二提取网络为bert模型中最后几个(如三个)transformer层,第一提取网络为bert模型中其他transformer层。
本实施例中,所述标记嵌入特征为单句中词语的词向量,区分嵌入特征用于区分单句与相邻的句子为不同的句子,位置嵌入特征用于标识单句中词语的绝对位置。
例如,在区分嵌入特征中,使用ea和eb来区分两个不同的句子,即对于句子senti来说,如果i是奇数,区分嵌入特征为ea,否则是eb。例如:输入5个句子{sent1,sent2,sent3,sent4,sent5},对应的区分嵌入特征为{ea,eb,ea,eb,ea}。
例如,标记嵌入特征为tokenembedding,区分嵌入特征为segmentembedding,位置嵌入特征为positionembedding,则令句子的标记e为tokenembedding segmentembedding positionembedding,使e经过bert的多个transformer层,得到每个句子的上下文嵌入,再将每个句子的上下文嵌入通过bert的最后一个transformer层,得到单句的向量表示,即单句向量,再将所有单句向量汇总,得到训练单句向量集。
优选的,本发明实施例中,在得到训练单句向量集之后,所述方法还包括:
将所述训练单句向量集划分为训练集、验证集和测试集。其中,训练集用于训练模型,验证集用于验证模型,测试集用于测试模型。
具体的,可以随机取训练单句向量集中m%的数据作为训练集,取n%的文本作为验证集,最后剩下的(100-m-n)%的文本作为测试集,其中,m和n的值可以为预设的。
s13、提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征。
本实施例中,训练单句的段落编码特征表示训练单句在整体训练文本中的段落特征,具体的可以包括单句在段落中的位置,例如,某单句的段落编码特征为n/m,m表示该单句所属段落中句子的数量(m对于不同段的取值不同),n表示当前该单句在所属段落中是第几句。
单句的摘要编码特征表示单句在段落中的摘要特征,具体的可以包括该单句是否为摘要句,以及该单句为摘要句的第几句。例如,某单句的摘要编码特征为k/p,p表示该句为摘要句时摘要的数量,k表示该单句在摘要中是第几句,如果当前句不是摘要句,则表示为0/0。
本实施例中,每个单句的段落编码特征和摘要编码特征可以为预先标注的,则在训练模型时,直接提取该预先标注的单句的段落编码特征以及摘要编码特征。
s14、利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
例如,训练单句向量集中某单句的单句向量为
本实施例中,文本分段模型为线性分类器。
例如,文本分段模型为:
其中,
本实施例中,通过第一训练得到
进一步的,在第一训练时,可以利用训练单句向量集中训练集进行训练,再通过验证集对训练好的模型进行验证和矫正。具体的,可以利用预测标签值
类似地,例如,训练单句向量集中某单句的单句向量为
本实施例中,文本摘要抽取模型也可以为线性分类器。
例如,文本摘要抽取模型为:
其中,
本实施例中,通过第二训练得到
进一步的,在第二训练时,可以利用训练单句向量集中训练集进行训练,再通过验证集对训练好的模型进行验证和矫正。具体的,可以利用预测标签值
进一步的,当训练和验证过程中,产生很多
进一步的,所述利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,包括:
将所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征输入至预构建的文档特征提取模型,得到摘要训练单句向量集;
将所述摘要训练单句向量集输入所述文本摘要抽取模型进行第二训练。
本实施例中,所述文档特征提取模型可以为线性分类模型,或者为长短期记忆网络(long-shorttermmemory,lstm)模型,或者为transformer模型。
具体的,可以首先使用一个
例如,将
如下式所示,其中
其中,
其中,
本申请实施例可利用训练文本集得到的训练单句集同时对文本摘要抽取模型和文本分段模型进行训练,并且在训练文本分段模型时利用了训练单句的摘要编码特征,在文本摘要抽取模型时利用了段落编码特征,使分段模型训练时能够结合摘要编码特征进行学习,从而提高训练得到的分段模型的准确性,以及使摘要抽取模型训练时能够结合段落编码特征进行学习,提高训练得到的摘要抽取模型的准确性。因此,本发明实施例不仅可以提高获取训练得到的文本分段模型和摘要抽取模型的获取效率,并且能够提高训练得到的文本分段模型和摘要抽取模型的模型准确性。
图2为本申请实施例提供的一种摘要抽取方法的流程示意图。在本实施例中,所述摘要抽取方法包括:
s21、获取待处理文本。
本实施例中,所述待处理文本可以为用户输入的,或者是本地或网络数据库中获取的等待分段的文本,该待处理文本可以包括多个单句。
所述待处理文本的类型可以为中文类型,或者为其他语言类型等。
s22、将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果。
本实施例中,所述标准文本摘要抽取模型是采用前述方法实施例所述的多模型训练方法进行训练得到的。
本实施例中,可以先对待处理文本进行单句划分处理,即将待处理文本划分为单句,再利用标准文本摘要抽取模型识别待处理文本中单句为摘要句的概率,确定概率大于预设概率的句子为摘要句。
进一步的,所述摘要抽取结果包括标识为摘要的摘要句以及所述摘要句的摘要概率,所述得到摘要抽取结果之后,所述方法还包括:
确定生成摘要段落的摘要数量,对所述摘要句按照所述摘要概率进行排序;
根据所述排序从前到后判断多个摘要句中是否存在相似度大于预设相似度的至少两个摘要句,其中,所述多个摘要句的总数量与所述摘要数量相等;
若存在相似度大于预设相似度的至少两个摘要句,则保留所述至少两个摘要句中任意一个摘要句作为目标摘要句,将所述目标摘要句以外的摘要句删除,再次执行所述根据所述排序从前到后判断多个摘要句中是否存在相似度大于预设相似度的至少两个摘要句的操作;
若不存在相似度大于预设相似度的至少两个摘要句,则将所述多个摘要句组成摘要段落。
本实施例中,摘要段落为由摘要组成的摘要段落。本实施例中,从摘要抽取结果中选取多个句子组成摘要段落,提高生成摘要的简要精确性。
例如,确定生成摘要段落的摘要数量为8句,若确定概率大于预设概率的句子有12句,即摘要句有12句,则将这12个句子以摘要概率从大到小的顺序排序,判断前8个句子中是否有相似度较大的两个句子,具体的,可以通过判断两个句子中类似或重复的词语是否大于预设词语数量(如判断两个句子中类似或重复的词语是否大于3个),若两个句子中类似或重复的词语大于预设词语数量,则确定这两个句子为相似句,选取其中一个删除,优选的,选取摘要概率低的句子删除,保留摘要概率高的句子;然后再判断原排序中第9个句子与删除一个句子之后的7个句子中是否存在相似度较大的句子,若不存在,则确定删除一个句子之后的7个句子与第9个句子组成摘要段落,若原排序第9个句子也与删除一个句子之后的7个句子中任意一句为相似度较大的句子,则将该第9个句子也删除,取原排序中第10个句子与这7个句子进行句子的相似度判断,以此类推,直到得到不存在相似句的摘要段落,减少摘要段落的冗余信息,使摘要段落更精炼且包含的信息更完整。
本实施例中,由于标准文本摘要抽取模型是采用前述方法实施例中多模型训练方法进行训练得到的,本发明实施例可以对待处理文本准确地进行摘要句判断,得到精准的摘要抽取结果,以及得到简要精准的摘要段落。
图3为本申请实施例提供的一种文本分段方法的流程示意图。在本实施例中,所述文本分段方法包括:
s31、获取待处理文本。
本实施例中,所述待处理文本可以为用户输入的,或者是本地或网络数据库中获取的等待分段的文本,该待处理文本可以包括多个单句。
所述待处理文本的类型可以为中文类型,或者为其他语言类型等。
s32、将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果。
本实施例中,所述标准文本分段模型是采用前述方法实施例所述的多模型训练方法进行训练得到的。
本实施例中,可以先对待处理文本进行单句划分处理,即将待处理文本划分为单句,再利用标准文本分段模型识别待处理文本中不同的单句的段落边界的标签,通过段落边界的标签确定哪些单句为同一个段落,哪些单句不为同一个段落,从而确定待处理文本的分段结果。
本实施例中,由于标准文本分段模型是采用前述方法实施例所述的多模型训练方法进行训练得到的,因此通过该标准文本分段模型可以对待处理文本进行准确地段落划分,得到精准的分段结果。
如图4所示,本申请实施例提供了一种多模型训练装置40的模块示意图,所述多模型训练装置40,包括:训练文本获取模块41、第一特征提取模块42、第二特征提取模块43和训练模块44。
所述训练文本获取模块41,用于获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
所述第一特征提取模块42,用于通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
所述第二特征提取模块43,用于提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
所述训练模块44,用于利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
详细地,本申请实施例中所述多模型训练装置40中的各模块在使用时采用与上述的图1中所述的多模型训练方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,本申请实施例提供了一种摘要抽取装置50的模块示意图,所述摘要抽取装置50,包括:摘要文本获取模块51和摘要抽取模块52。
所述摘要文本获取模块51,用于获取待处理文本;
所述摘要抽取模块52,用于将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用前述装置实施例所述的多模型训练装置进行训练得到的。
详细地,本申请实施例中所述摘要抽取装置50中的各模块在使用时采用与上述的图2中所述的摘要抽取方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图6所示,本申请实施例提供了一种文本分段装置60的模块示意图,所述文本分段装置60,包括:分段文本获取模块61和文本分段模块62。
所述分段文本获取模块61,用于获取待处理文本;
所述文本分段模块62,用于将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用前述装置实施例所述的多模型训练装置进行训练得到的。
详细地,本申请实施例中所述文本分段装置60中的各模块在使用时采用与上述的图3中所述的文本分段方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图7所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信。
存储器113,用于存放计算机程序。
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的多模型训练方法,或实现前述任意一个方法实施例提供的摘要抽取方法,或实现前述任意一个方法实施例提供的文本分段方法。
所述多模型训练方法包括:
获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
所述摘要抽取方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用如前述任意一个方法实施例所述的多模型训练方法进行训练得到的。
所述文本分段方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用如前述任意一个方法实施例所述的多模型训练方法进行训练得到的。
上述通信总线114可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口112用于上述电子设备与其他设备之间的通信。
存储器113可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。
上述的处理器111可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的多模型训练方法的步骤,或实现如前述任意一个方法实施例提供的摘要抽取方法的步骤,或实现如前述任意一个方法实施例提供的文本分段方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
1.一种多模型训练方法,其特征在于,所述方法包括:
获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
2.如权利要求1所述的方法,其特征在于,所述通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集,包括:
通过预设的特征提取模型的第一提取网络提取所述训练单句集中训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征;
将所述训练单句的标记嵌入特征、区分嵌入特征和位置嵌入特征组合后输入至所述特征提取模型的第二提取网络,得到所述训练单句的单句向量;
汇总得到的所有单句向量,得到所述训练单句向量集。
3.如权利要求2所述的方法,其特征在于,所述特征提取模型为bert模型。
4.如权利要求1所述的方法,其特征在于,所述利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,包括:
将所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征输入至预构建的文档特征提取模型,得到摘要训练单句向量集;
将所述摘要训练单句向量集输入所述文本摘要抽取模型进行第二训练。
5.如权利要求1所述的方法,其特征在于,所述得到训练单句集之后,所述方法还包括:
删除所述训练单句集中的停用词、语气词和重复词。
6.一种摘要抽取方法,其特征在于,所述方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用如权利要求1至5中任一项所述的多模型训练方法进行训练得到的。
7.如权利要求6所述的方法,其特征在于,所述摘要抽取结果包括标识为摘要的摘要句以及所述摘要句的摘要概率,所述得到摘要抽取结果之后,所述方法还包括:
确定生成摘要段落的摘要数量,对所述摘要句按照所述摘要概率进行排序;
根据所述排序从前到后判断多个摘要句中是否存在相似度大于预设相似度的至少两个摘要句,其中,所述多个摘要句的总数量与所述摘要数量相等;
若存在相似度大于预设相似度的至少两个摘要句,则保留所述至少两个摘要句中任意一个摘要句作为目标摘要句,将所述目标摘要句以外的摘要句删除,再次执行所述根据所述排序从前到后判断多个摘要句中是否存在相似度大于预设相似度的至少两个摘要句的操作;
若不存在相似度大于预设相似度的至少两个摘要句,则将所述多个摘要句组成摘要段落。
8.一种文本分段方法,其特征在于,所述方法包括:
获取待处理文本;
将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用如权利要求1至5中任一项所述的多模型训练方法进行训练得到的。
9.一种多模型训练装置,其特征在于,所述装置包括:
训练文本获取模块,用于获取训练文本集,将所述训练文本集中文本划分为单句,得到训练单句集;
第一特征提取模块,用于通过预设的特征提取模型对所述训练单句集进行特征提取,得到训练单句向量集;
第二特征提取模块,用于提取所述训练单句向量集中训练单句的段落编码特征以及摘要编码特征;
训练模块,用于利用所述训练单句向量集和所述训练单句向量集中训练单句的摘要编码特征对预构建的文本分段模型进行第一训练,以及利用所述训练单句向量集和所述训练单句向量集中训练单句的段落编码特征对预构建的文本摘要抽取模型进行第二训练,得到标准文本分段模型和标准文本摘要抽取模型。
10.一种摘要抽取装置,其特征在于,所述装置包括:
摘要文本获取模块,用于获取待处理文本;
摘要抽取模块,用于将所述待处理文本输入至标准文本摘要抽取模型进行摘要抽取,得到摘要抽取结果,其中,所述标准文本摘要抽取模型是采用如权利要求9所述的多模型训练装置进行训练得到的。
11.一种文本分段装置,其特征在于,所述装置包括:
分段文本获取模块,用于获取待处理文本;
文本分段模块,用于将所述待处理文本输入至标准文本分段模型进行文本分段,得到文本分段结果,其中,所述标准文本分段模型是采用如权利要求9所述的多模型训练装置进行训练得到的。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至5中任意一项所述的多模型训练方法的步骤,或实现权利要求6所述的摘要抽取方法的步骤,或实现权利要求7所述的文本分段方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的多模型训练方法的步骤,或实现权利要求6所述的摘要抽取方法的步骤,或实现权利要求7所述的文本分段方法的步骤。
技术总结