本发明涉及人工智能技术领域,尤其涉及一种文本匹配方法、装置、计算机设备及可读存储介质。
背景技术:
bert(bidirectionalencoderrepresentationsfromtransformers)模型是一个面向nlp的无监督预训练模型,自bert模型的出现,极大地提高了整体自然语言处理的精度。但是它的无监督文本匹配能力是受人诟病的。
目前,由于经过bert模型编码后的向量值会受到各个词语在所有训练语料中的词频的影响。因此,高频词被映射到高维空间后,更集中在远点且距离更近。举例来说,即使一个高频词和一个低频词的语义是等价的,但是距离差异却非常大。而在bert模型的表示下,编辑距离小于4的句子语义相似度很高,但这显然是不对的,在文本中随便加一个“不”字都会让这两句话意思相反。
由此可知,目前通过bert模型进行文本匹配,不能很好地表示语义相关性,这和人对句子语义判断的机制并不符合,造成文本匹配精度低,应用性差。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种文本匹配方法、装置、计算机设备及存储介质,以解决现有技术进行文本匹配时,文本匹配精度低,应用性差的问题。
第一方面,提供了一种文本匹配方法,包括:
获取预训练文本对应的句向量集合;
计算所述句向量集合对应的句向量均值以及协方差矩阵;
对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
第二方面,提供了一种文本匹配装置,包括:
获取单元,用于获取预训练文本对应的句向量集合;
计算单元,用于计算所述句向量集合对应的句向量均值以及协方差矩阵;
第一转换单元,用于对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
第二转换单元,用于获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
目标文本获取单元,用于将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述文本匹配方法。
第四方面,提供了一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述文本匹配方法。
上述文本匹配方法、装置、计算机设备及存储介质,通过获取预训练文本对应的句向量集合;计算所述句向量集合对应的句向量均值以及协方差矩阵;对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。通过对句向量以及协方差矩阵转换处理,以调整句向量的分布,使得语义分布更加平滑,语义定义的范围更完整,即使对于编辑距离较小的句子也能很好的表示语义相关性,降低语义相似度计算的错误,因此匹配更为准确,由此可知,本方案可提高匹配精度,可用性更强,尤其在文本质检时,效果更佳。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本匹配方法的一应用环境示意图;
图2是本发明实施例一提供的一种文本匹配方法的实现流程示意图;
图3是本发明实施例二提供的一种对文本匹配测评计分的方法的实现流程示意图;
图4是本发明实施例三提供的一种文本匹配装置的结构示意图;
图5是本发明实施例四提供的一种测评计分模块的结构示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的文本匹配方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信,客户端可向该服务端发送待匹配文本,该服务端将该待匹配文本的句向量集合转换为各项同性分布,并与预存的转换为各向同性分布的预训练文本的句向量集合进行匹配,以获取对应的目标文本。
可以理解,在实际应用中,尤其针对质检对话评测中,该预训练文本可为业务方提供的标准话术文本,该待匹配文本为用户录入的实际话术文本,通过该业务方提供的标准话术文本的句向量转换为各项同性分布后并存储,在用户录入实际话术文本后,将用户录入实际话术文本的句向量转换为各项同性分布后,与存储的标准话术文本转换为各项同性分布的句向量集合进行匹配,以判断该标准话术文本与该实际话术文本的相似性,通过上述方式对句向量的空间分布进行转换,使得语义定义的范围更完整,匹配精度更高,能更好地将标准话术与实际对话做匹配。
其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例提供了一种文本匹配方法,通过对句向量以及协方差矩阵转换处理,以调整句向量的分布,使得语义分布更加平滑,语义定义的范围更完整,即使对于编辑距离较小的句子也能很好的表示语义相关性,降低语义相似度计算的错误,因此匹配更为准确,由此可知,本方案可提高匹配精度,可用性更强,尤其在文本质检时,效果更佳。
实施例一、
图1示出了本发明实施例一提供的一种文本匹配方法的实现流程,详述如下:
步骤s110,获取预训练文本对应的句向量集合;
在本发明实施例中,预训练文本可为预先存储的可作为训练语料的文本,其可以针对不同的应用场景包括不同的文本类型,比如中文文本、英文文本、方言文本等,可以理解的,不同文本类型的预训练文本可通过不同方式获取其对应的句向量集合。
作为本发明的一种实施例,通过将该预训练文本输入到bert模型中,以获取所述句向量集合。具体的,将预训练文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,从而获取到该预训练文本对应的句向量集合。
进一步,该句向量集合具体可包括的词向量、位置向量以及文本向量,该文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;该位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此,bert模型对不同位置的字/词分别附加一个不同的向量以作区分。
进一步,将通过bert模型转换为句向量集合后,将该句向量集合组成训练矩阵。
步骤s120,计算所述句向量集合对应的句向量均值以及协方差矩阵;
在本发明实施例中,句向量集合对应的句向量均值可以通过递归算法获取,或者也可以通过对句向量进行加权求均值,比如可以使用tf-idf(termfrequency–inversedocumentfrequency)。对句向量中的各个词向量做加权求和获得句子的表征。其中,tf是词频(termfrequency),idf是逆文本频率指数。
在本发明实施例中,协方差矩阵可以通过如下公式获取:
通过上述公式,可以得出句向量集合对应的协方差矩阵。
步骤s130,对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
在本发明实施例中,对所述句向量均值以及所述协方差矩阵进行转换处理,具体的将句向量均值转换为零;将协方差矩阵转换为单位矩阵。
其中,将协方差矩阵转换为单位矩阵,包括:
对协方差矩阵进行奇异值分解;
将分解后的协方差矩阵转换为单位矩阵。
具体可参考下列公式:
对协方差矩阵进行奇异值svd分解,如下:
∑=uλut
其中,u表示上三角矩阵,λ表示对角线元素都为非负的对角矩阵,特征向量为标准正交基时,ut=u-1,满足∑为酉矩阵。
对协方差矩阵进行svd分解后,通过如下方式,将协方差矩阵转换为单位矩阵w:
步骤s140中,获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
作为本发明的一种实施例,通过将该待匹配文本输入到bert模型中,以获取所述句向量集合。具体的,将待匹配文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,从而获取到该待匹配文本对应的句向量集合。
在本发明实施例中,将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布,包括:
获取所述待匹配文本对应的句向量集合的句向量均值以及协方差矩阵;
将所述待匹配文本对应的句向量集合的句向量均值转换为零,将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,以将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布。
在本发明实施例中,该待匹配文本可为任意一个文本,可以为一段句子、一段对话等,其可为用户直接在终端中录入的文本信息,也可为终端接收到的用户通过其他客户端录入并发送给该终端的文本信息。作为一种实施例场景,终端可以提供文本录入界面,用户可以直接在文本录入界面选择需要匹配的文本或者直接录入需要匹配的文本。
其中,该待匹配文本可包括文字、语音等信息,当为语音时,可以将该语音数据转换为文字,根据该文字获取对应的句向量集合。
作为本发明的一个实施例,通过将该待匹配文本输入到bert模型中,以获取所述句向量集合。具体的,将待匹配文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示,从而获取到该待匹配文本对应的句向量集合。
在本发明实施例中,待匹配文本的句向量集合对应的句向量均值可以通过递归算法获取,其中该待匹配文本对应的句向量集合的协方差矩阵可以通过如下公式获取:
其中,将待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,包括:
对待匹配文本对应的句向量集合的协方差矩阵进行奇异值分解;
将分解后的待匹配文本对应的协方差矩阵转换为单位矩阵。
具体可参考下列公式:
对待匹配文本对应的协方差矩阵进行奇异值svd分解
∑=uλut
其中,u的列向量是∑的特征向量,λ是对角矩阵,λ对角元素是对应特征向量的特征值。特征向量为标准正交基时,ut=u-1,满足∑为酉矩阵。
对待匹配文本对应的协方差矩阵进行svd分解后,通过如下方式,将待匹配文本对应的协方差矩阵转换为单位矩阵w:
步骤s150,将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
在本发明实施例中,将预训练文本的句向量文本转换为各向同性分布的句向量文本后,将转换后的句向量均值以及协方差矩阵存储到磁盘中,以便在进行文本匹配时,可以随时调用,尤其是在文本质检过程中,可以提高匹配的精度。
在本发明实施例中,在获取到待匹配文本对应的句向量集合以及所述转换为各向同性分布的句向量集合后,可以根据余弦相似度的计算公式进行计算,余弦值越接近1,就表明夹角越接近0度,也就说明上述向量集合越相似,夹角等于0,即两个向量集合相等,即说明该预训练文本中的具有与该待匹配文本完全匹配的语料。
具体余弦相似度可通过如下方式计算:
其中,xi为待匹配文本对应的句向量集合,yi为转换为各向同性分布的句向量集合。
在本发明实施例中,通过获取预训练文本对应的句向量集合;计算所述句向量集合对应的句向量均值以及协方差矩阵;对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。通过对句向量以及协方差矩阵转换处理,以调整句向量的分布,使得语义分布更加平滑,语义定义的范围更完整,即使对于编辑距离较小的句子也能很好的表示语义相关性,降低语义相似度计算的错误,因此匹配更为准确,由此可知,本方案可提高匹配精度,可用性更强,尤其在文本质检时,效果更佳。
实施例二、
图2示出了本发明实施例二提供的一种对文本匹配测评计分的实现流程,详述如下:
在步骤s210中,建立测评计分规则,所述测评计分规则包括至少一个测评项;
在本发明实施例中,测评计分规则用于对文本匹配的精确度进行评分,具体可将文本划分为不同的测评项,如,一篇文章可以分为标题部分、正文部分以及结尾部分等。根据每一部分对应的文本匹配相似度进行评分,以便了解文本匹配在各个部分的评分,进一步对文本匹配模型进行调整,更具有针对性,可提高匹配精度。
可以理解,不同文本类型的文本可以划分为不同的测评项,比如,一段新闻可以分为标题、导语、主体、背景、结语等部分。
在本发明实施例中,每一个测评项对应不同的评分权重,比如,标题部分的评分可为10分,正文部分可为30分,结尾部分为15分等。进一步,其评分的权重可根据其对文本匹配相似度要求的精确度进行分配。比如,异议处理部分对文本匹配的相似度要求较高,因此其对应的评分较高。
在步骤s220中,获取所述待匹配文本与所述目标文本在每一个测评项中的匹配度;
在本发明实施例中,将该待匹配文本以及该目标文本根据上述测评项进行划分,对每一个测评项下的待匹配文本以及目标文本进行匹配,以获取每一个测评项中待匹配文本以及目标文本的匹配相似度,比如,在标题部分的相似度匹配为80%,在正文部分的相似度匹配为85%等。
具体的,可以分别获取在每一个测评项下的待匹配文本与该目标文本的句向量集合,并根据余弦相似度算法计算其在每一测试项下的匹配值,根据该匹配值确定其匹配程度。
在步骤s230中,根据所述匹配度以及所述测评计分规则,计算所述待匹配文本与所述目标文本在每一个测评项中的匹配评分,以及所述匹配评分的总和;
在本发明实施例中,在获取了待匹配文本与目标文本在每一个测评项中的匹配度之后,根据该测评项占有的评分权重,计算该待匹配文本与该目标文本在每一个测评项中的匹配评分,比如,在标题的相似度匹配为80%,而标题部分的总分为10分,则在标题部分的匹配评分为10*80%,为8分。
进一步,分别对每一测评项下的文本匹配评分进行计算后,将所有的评分进行相加,以获取匹配评分的总和。
在步骤s240中,当所述匹配评分的总和达到预设评分阈值时,则判定所述目标文本通过质检。
在本发明实施例中,该预设评分阈值为根据该匹配相似度最低精度要求所设置的,比如,80分,其可预先存储在存储设备中,比如磁盘,当进行测评计分时,直接调用。
在本发明实施例中,通过将匹配评分的总和以及预设的评分阈值进行比对,可确定该匹配评分的总和是否大于该预设评分阈值,并当该匹配评分的总和大于该预设评分阈值时,通过质检,此时,可以将通过上述文本匹配方法调整后的文本匹配模型作为新的文本匹配模型,并应用在质检对话评测中,通过上述方式对句向量的空间分布进行调整后,文本的语义定义的范围更加完整,并且,经过测评计分的验证可知,其在实际应用中,能更好的将标准文本与实际话术做匹配,并且匹配的精度更高。
在本发明一实施例中,当所述待匹配文本与所述目标文本的匹配评分的总和未达到所述预设评分阈值时,重新对所述待匹配文本进行文本匹配。具体的,当该匹配评分的总和未达到该预设评分阈值时,说明匹配相似度过低,质检失败,此时需要重新对待匹配文本进行对所述句向量的均值以及对应的协方差矩阵进行转换处理,并重新进行文本匹配。
在本发明的一实施例中,当该待匹配文本与该目标文本的匹配评分总和达到该预设评分阈值之后,进一步,判断该待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数是否达到第一预设次数;当判断结果为是,则对质检评测对话任务中的文本进行匹配。具体的,该第一预设次数可为具体的数值,比如,5次,即待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数达到5次,即可将该文本匹配方法应用到质检评测对话任务中。
进一步,还可以判断该待匹配文本与该目标文本的匹配评分的总和是否连续第二预设次数达到该预设评分阈值,当判断结果为是,则对质检评测对话任务中的文本进行匹配。比如,连续5次都达到该预设评分阈值,此时可以将该文本匹配方法应用到质检评测对话任务中,以对质检评测对话任务中的文本进行匹配。
进一步,还可以确定该待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数占总匹配次数的比例达到预设次数时,比如,在10次测评计分中,有8次达到该预设评分阈值时,可以将该文本匹配方法应用到质检评测对话任务中,以对质检评测对话任务中的文本进行匹配。
可以理解的,该待匹配文本可为相同的文本,也可为不同的文本,通过多次对待匹配文本进行匹配,并计算匹配总分,进而根据匹配总分达到预设评分阈值的次数,确定该文本匹配的精度,以便将该文本匹配方法应用到质检评测对话任务中。
在本发明实施例中,由于在实际生产过程的质检对话评测中,语料库数据量较大,此时文本匹配的精度会直接影响文本质检的效果,因此通过上述方式对文本匹配的匹配程度进行评分,可以明确了解本方案中文本匹配的精度,以及在质检过程中的匹配效果,增加文本匹配模型的可用性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三、
在一实施例中,提供一种文本匹配装置100,该文本匹配装置100与上述实施例中文本匹配方法一一对应。如图3所示,该文本匹配装置100包括获取单元10、计算单元20、第一转换单元30、第二转换单元40和目标文本获取单元50。各功能模块详细说明如下:
获取单元10,用于获取预训练文本对应的句向量集合;
在本发明实施例中,预训练文本可为预先存储的可作为训练语料的文本,其可以针对不同的应用场景包括不同的文本类型,比如中文文本、英文文本、方言文本等,可以理解的,不同文本类型的预训练文本可通过不同方式获取其对应的句向量集合。
作为本发明的一种实施例,通过将该预训练文本输入到bert模型中,以获取所述句向量集合。具体的,将预训练文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,从而获取到该预训练文本对应的句向量集合。
进一步,该句向量集合具体可包括的词向量、位置向量以及文本向量,该文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;该位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此,bert模型对不同位置的字/词分别附加一个不同的向量以作区分。
进一步,将通过bert模型转换为句向量集合后,将该句向量集合组成训练矩阵。
计算单元20,用于计算所述句向量集合对应的句向量均值以及协方差矩阵;
在本发明实施例中,句向量集合对应的句向量均值可以通过递归算法获取,或者也可以通过对句向量进行加权求均值,比如可以使用tf-idf(termfrequency–inversedocumentfrequency)。对句向量中的各个词向量做加权求和获得句子的表征。其中,tf是词频(termfrequency),idf是逆文本频率指数。
在本发明实施例中,协方差矩阵可以通过如下公式获取:
通过上述公式,可以得出句向量集合对应的协方差矩阵。
转换处理单元30,用于对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
在本发明实施例中,对所述句向量均值以及所述协方差矩阵进行转换处理,具体的将句向量均值转换为零;将协方差矩阵转换为单位矩阵。
其中,将协方差矩阵转换为单位矩阵,包括:
对协方差矩阵进行奇异值分解;
将分解后的协方差矩阵转换为单位矩阵。
具体可参考下列公式:
对协方差矩阵进行奇异值svd分解,如下:
∑=uλut
其中,u表示上三角矩阵,λ表示对角线元素都为非负的对角矩阵,特征向量为标准正交基时,ut=u-1,满足∑为酉矩阵。
对协方差矩阵进行svd分解后,通过如下方式,将协方差矩阵转换为单位矩阵w:
第二转换单元40,用于获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
作为本发明的一种实施例,通过将该待匹配文本输入到bert模型中,以获取所述句向量集合。具体的,将待匹配文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,从而获取到该待匹配文本对应的句向量集合。
在本发明实施例中,第二转换单元40还用于:
获取所述待匹配文本对应的句向量集合的句向量均值以及协方差矩阵;
将所述待匹配文本对应的句向量集合的句向量均值转换为零,将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,以将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布。
在本发明实施例中,该待匹配文本可为任意一个文本,可以为一段句子、一段对话等,其可为用户直接在终端中录入的文本信息,也可为终端接收到的用户通过其他客户端录入并发送给该终端的文本信息。作为一种实施例场景,终端可以提供文本录入界面,用户可以直接在文本录入界面选择需要匹配的文本或者直接录入需要匹配的文本。
其中,该待匹配文本可包括文字、语音等信息,当为语音时,可以将该语音数据转换为文字,根据该文字获取对应的句向量集合。
作为本发明的一个实施例,通过将该待匹配文本输入到bert模型中,以获取所述句向量集合。具体的,将待匹配文本输入到bert模型中,该bert模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示,从而获取到该待匹配文本对应的句向量集合。
在本发明实施例中,待匹配文本的句向量集合对应的句向量均值可以通过递归算法获取,其中该待匹配文本对应的句向量集合的协方差矩阵可以通过如下公式获取:
其中,将待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,包括:
对待匹配文本对应的句向量集合的协方差矩阵进行奇异值分解;
将分解后的待匹配文本对应的协方差矩阵转换为单位矩阵。
具体可参考下列公式:
对待匹配文本对应的协方差矩阵进行奇异值svd分解
∑=uλut
其中,u的列向量是∑的特征向量,λ是对角矩阵,λ对角元素是对应特征向量的特征值。特征向量为标准正交基时,ut=u-1,满足∑为酉矩阵。
对待匹配文本对应的协方差矩阵进行svd分解后,通过如下方式,将待匹配文本对应的协方差矩阵转换为单位矩阵w:
目标文本获取单元50,用于将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
在本发明实施例中,将预训练文本的句向量文本转换为各向同性分布的句向量文本后,将转换后的句向量均值以及协方差矩阵存储到磁盘中,以便在进行文本匹配时,可以随时调用,尤其是在文本质检过程中,可以提高匹配的精度。
在本发明实施例中,在获取到待匹配文本对应的句向量集合以及所述转换为各向同性分布的句向量集合后,可以根据余弦相似度的计算公式进行计算,余弦值越接近1,就表明夹角越接近0度,也就说明上述向量集合越相似,夹角等于0,即两个向量集合相等,即说明该预训练文本中的具有与该待匹配文本完全匹配的语料。
具体余弦相似度可通过如下方式计算:
其中,xi为待匹配文本对应的句向量集合,yi为转换为各向同性分布的句向量集合。
本发明实施例提供了一种文本匹配装置,通过获取单元10获取预训练文本对应的句向量集合;计算单元20计算所述句向量集合对应的句向量均值以及协方差矩阵;第一转换单元30对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;第二转换单元40,获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;目标文本获取单元50将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。通过对句向量以及协方差矩阵转换处理,以调整句向量的分布,使得语义分布更加平滑,语义定义的范围更完整,即使对于编辑距离较小的句子也能很好的表示语义相关性,降低语义相似度计算的错误,因此匹配更为准确,由此可知,本方案可提高匹配精度,可用性更强,尤其在文本质检时,效果更佳。
实施例四、
图5示出了本发明实施例提供的一种测评计分模块60的结构示意图,该测评计分模块60应用于该文本匹配装置100上,具体包括:测评计分规则建立单元61、匹配度获取单元62、评分计算单元63以及质检单元64。
测评计分规则建立单元61,用于建立测评计分规则,所述测评计分规则包括至少一个测评项;
在本发明实施例中,测评计分规则用于对文本匹配的精确度进行评分,具体可将文本划分为不同的测评项,如,一篇文章可以分为标题部分、正文部分以及结尾部分等。根据每一部分对应的文本匹配相似度进行评分,以便了解文本匹配在各个部分的评分,进一步对文本匹配模型进行调整,更具有针对性,可提高匹配精度。
可以理解,不同文本类型的文本可以划分为不同的测评项,比如,一段新闻可以分为标题、导语、主体、背景、结语等部分。
在本发明实施例中,每一个测评项对应不同的评分权重,比如,标题部分的评分可为10分,正文部分可为30分,结尾部分为15分等。进一步,其评分的权重可根据其对文本匹配相似度要求的精确度进行分配。比如,异议处理部分对文本匹配的相似度要求较高,因此其对应的评分较高。
匹配度获取单元62,用于获取所述待匹配文本与所述目标文本在每一个测评项中的匹配度;
在本发明实施例中,将该待匹配文本以及该目标文本根据上述测评项进行划分,对每一个测评项下的待匹配文本以及目标文本进行匹配,以获取每一个测评项中待匹配文本以及目标文本的匹配相似度,比如,在标题部分的相似度匹配为80%,在正文部分的相似度匹配为85%等。
具体的,可以分别获取在每一个测评项下的待匹配文本与该目标文本的句向量集合,并根据余弦相似度算法计算其在每一测试项下的匹配值,根据该匹配值确定其匹配程度。
评分计算单元63,用于根据所述匹配度以及所述测评计分规则,计算所述待匹配文本与所述目标文本在每一个测评项中的匹配评分,以及所述匹配评分的总和;
在本发明实施例中,在获取了待匹配文本与目标文本在每一个测评项中的匹配度之后,根据该测评项占有的评分权重,计算该待匹配文本与该目标文本在每一个测评项中的匹配评分,比如,在标题的相似度匹配为80%,而标题部分的总分为10分,则在标题部分的匹配评分为10*80%,为8分。
进一步,分别对每一测评项下的文本匹配评分进行计算后,将所有的评分进行相加,以获取匹配评分的总和。
质检单元64,用于当所述匹配评分的总和达到预设评分阈值时,则判定所述目标文本通过质检。
在本发明实施例中,该预设评分阈值为根据该匹配相似度最低精度要求所设置的,比如,80分,其可预先存储在存储设备中,比如磁盘,当进行测评计分时,直接调用。
在本发明实施例中,通过将匹配评分的总和以及预设的评分阈值进行比对,可确定该匹配评分的总和是否大于该预设评分阈值,并当该匹配评分的总和大于该预设评分阈值时,通过质检,此时,可以将通过上述文本匹配方式调整后的文本匹配模型作为新的文本匹配模型,并应用在质检对话评测中,通过上述方式对句向量的空间分布进行调整后,文本的语义定义的范围更加完整,并且,经过测评计分的验证可知,其在实际应用中,能更好的将标准文本与实际话术做匹配,并且匹配的精度更高。
在本发明一实施例中,当所述待匹配文本与所述目标文本的匹配评分的总和未达到所述预设评分阈值时,重新对所述待匹配文本进行文本匹配。具体的,当该匹配评分的总和未达到该预设评分阈值时,说明匹配相似度过低,质检失败,此时需要重新对待匹配文本进行对所述句向量的均值以及对应的协方差矩阵进行转换处理,并重新进行文本匹配。
在本发明的一实施例中,当该待匹配文本与该目标文本的匹配评分总和达到该预设评分阈值之后,进一步,判断该待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数是否达到第一预设次数;当判断结果为是,则对质检评测对话任务中的文本进行匹配。具体的,该第一预设次数可为具体的数值,比如,5次,即待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数达到5次,即可将该文本匹配方法应用到质检评测对话任务中。
进一步,还可以判断该待匹配文本与该目标文本的匹配评分的总和是否连续第二预设次数达到该预设评分阈值,当判断结果为是,则对质检评测对话任务中的文本进行匹配。比如,连续5次都达到该预设评分阈值,此时可以将该文本匹配方法应用到质检评测对话任务中,以对质检评测对话任务中的文本进行匹配。
进一步,还可以确定该待匹配文本与该目标文本的匹配评分的总和达到该预设评分阈值的次数占总匹配次数的比例达到预设次数时,比如,在10次测评计分中,有8次达到该预设评分阈值时,可以将该文本匹配方法应用到质检评测对话任务中,以对质检评测对话任务中的文本进行匹配。
可以理解的,该待匹配文本可为相同的文本,也可为不同的文本,通过多次对待匹配文本进行匹配,并计算匹配总分,进而根据匹配总分达到预设评分阈值的次数,确定该文本匹配的精度,以便将该文本匹配方法应用到质检评测对话任务中。
在本发明实施例中,由于在实际生产过程的质检对话评测中,语料库数据量较大,此时文本匹配的精度会直接影响文本质检的效果,因此通过上述方式对文本匹配的匹配程度进行评分,可以明确了解本方案中文本匹配的精度,以及在质检过程中的匹配效果,增加文本匹配模型的可用性。
关于文本匹配装置的具体限定可以参见上文中对于文本匹配方法的限定,在此不再赘述。上述文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文本匹配方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本匹配方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现上述文本匹配方法的步骤。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现上述文本匹配方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
1.一种文本匹配方法,其特征在于,包括:
获取预训练文本对应的句向量集合;
计算所述句向量集合对应的句向量均值以及协方差矩阵;
对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
2.如权利要求1所述的文本匹配方法,其特征在于,所述将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布,包括:
获取所述待匹配文本对应的句向量集合的句向量均值以及协方差矩阵;
将所述待匹配文本对应的句向量集合的句向量均值转换为零,将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,以将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布。
3.如权利要求2所述的文本匹配方法,其特征在于,所述将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,包括:
对所述待匹配文本对应的句向量集合的协方差矩阵进行奇异值分解;
将分解后的协方差矩阵转换为单位矩阵。
4.如权利要求1所述的文本匹配方法,其特征在于,所述方法还包括:
建立测评计分规则,所述测评计分规则包括至少一个测评项;
获取所述待匹配文本与所述目标文本在每一个测评项中的匹配度;
根据所述匹配度以及所述测评计分规则,计算所述待匹配文本与所述目标文本在每一个测评项中的匹配评分,以及所述匹配评分的总和;
当所述匹配评分的总和达到预设评分阈值时,则判定所述目标文本通过质检。
5.如权利要求4所述的文本匹配方法,其特征在于,所述当所述匹配度评分的总和达到预设评分阈值之后,还包括:
判断所述待匹配文本与所述目标文本的匹配评分的总和达到所述预设评分阈值的次数是否达到第一预设次数;
当判断结果为是,则对质检评测对话任务中的文本进行匹配。
6.如权利要求4所述的文本匹配方法,其特征在于,所述方法还包括:
判断所述待匹配文本与所述目标文本的匹配评分的总和是否连续第二预设次数达到该预设评分阈值;
当判断结果为是,则对质检评测对话任务中的文本进行匹配。
7.如权利要求4所述的文本匹配方法,其特征在于,所述方法还包括:
当所述待匹配文本与所述目标文本的匹配评分的总和未达到所述预设评分阈值时,重新对所述待匹配文本进行匹配。
8.一种文本匹配装置,其特征在于,包括:
获取单元,用于获取预训练文本对应的句向量集合;
计算单元,用于计算所述句向量集合对应的句向量均值以及协方差矩阵;
第一转换单元,用于对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
第二转换单元,用于获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
目标文本获取单元,用于将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7任意一项所述文本匹配方法的步骤。
10.一个或多个可读存储介质,所述可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7任意一项所述文本匹配方法的步骤。
技术总结