基于对话的用户画像抽取方法及相关装置与流程

专利2022-05-09  42



1.本申请涉及数据分析技术领域,尤其涉及一种基于对话的用户画像抽取方法及相关装置。


背景技术:

2.在业务处理中,会涉及到大量与客户沟通的场景,比如客户情况了解、产品服务咨询、售后处理等,沟通中产生的对话信息对用户挖掘或业务拓展有着极其重要的意义,比如对对话信息进行用户画像抽取,有助于后续的个性化推荐、用户使用情况追踪,还可引导话题走向,做进一步的用户画像挖掘。传统的用户画像抽取主要基于人力和规则对对话信息进行挖掘,从用户的回答中提取出能反应用户一定个人信息的标签,但是这种方式抽取出的用户画像往往不全面,在描述用户的准确度上偏低。


技术实现要素:

3.针对上述问题,本申请提供了一种基于对话的用户画像抽取方法及相关装置,有利于提高用户画像抽取的准确度。
4.为实现上述目的,本申请实施例第一方面提供了一种基于对话的用户画像抽取方法,该方法包括:
5.获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
6.对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
7.对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
8.基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
9.对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
10.结合第一方面,在一种可能的实施方式中,所述基于所述预设数据表中记录的实体对识别出的代词进行指代消解,包括:
11.在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;
12.在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的
实体对识别出的代词进行指代消解;其中,所述历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话。
13.结合第一方面,在一种可能的实施方式中,所述基于第一预设规则对所述目标第一对话语句进行用户画像抽取,包括:
14.对所述目标第一对话语句进行敏感词和业务话术检测,以得到第一候选规则集;
15.采用正则表达式对所述目标第一对话语句进行规则匹配,得到第二候选规则集;
16.对所述第一候选规则集和所述第二候选规则集取交集,得到第三候选规则集;
17.在所述第三候选规则集中的规则为所述第一预设规则的情况下,抽取所述目标第一对话语句中的用户画像。
18.结合第一方面,在一种可能的实施方式中,所述得到第一候选规则集,包括:
19.在所述目标第一对话语句中未检测出所述敏感词以及所述目标第一对话语句不符合所述业务话术的情况下,采用基于多槽哈夫曼trie树的规则引擎对所述目标第一对话语句进行规则匹配得到所述第一候选规则集。
20.结合第一方面,在一种可能的实施方式中,所述基于第二预设规则对所述目标第二对话语句进行用户画像抽取,包括:
21.对所述目标第二对话语句进行所述敏感词和所述业务话术检测,以得到第四候选规则集;
22.采用正则表达式对所述目标第二对话语句进行规则匹配,得到第五候选规则集;
23.对所述第四候选规则集和所述第五候选规则集取交集,得到第六候选规则集;
24.在所述第六候选规则集中的规则为所述第二预设规则的情况下,抽取所述目标第二对话语句中的用户画像。
25.结合第一方面,在一种可能的实施方式中,在得到所述任意一轮对话中属于用户的用户画像之后,所述方法还包括:
26.对所述任意一轮对话中属于用户的用户画像进行冲突检测,采用投票策略确定出所述任意一轮对话中的所述目标用户画像。
27.本申请实施例第二方面提供了一种基于对话的用户画像抽取装置,该装置包括:
28.对话获取模块,用于获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
29.实体识别模块,用于对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
30.指代消解模块,用于对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
31.画像抽取模块,用于基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
32.画像合并模块,用于对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
33.本申请实施例第三方面提供了一种电子设备,该电子设备包括输入设备和输出设
备,还包括处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
34.获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
35.对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
36.对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
37.基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
38.对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
39.本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
40.获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
41.对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
42.对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
43.基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
44.对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
45.与现有技术相比,本申请实施例通过获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。这样通过实体识别和指代消解对多轮对话中用户的对话语句和业务员的对话语句进行处理,将对话中的代词与实体对应上,有利于克服基于单句对话的用户画像抽取中代词难以被准确识别为实体的问题,使得多轮对话中的对话语句更为完整,一方面有利于提升单句对话中抽取出用户画像的可能性,以抽取出更多用户画像,从而使得对一个用户的刻画更为准确,另一方面有利于后续基于指代消解后得到的对话语句
进行身份判断,以过滤掉描述业务员的用户画像。
附图说明
46.为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本申请实施例提供的一种网络系统架构的示意图;
48.图2为本申请实施例提供的一种基于对话的用户画像抽取方法的流程示意图;
49.图3为本申请实施例提供的一种对目标第一对话语句进行用户画像抽取的示例图;
50.图4为本申请实施例提供的一种对目标第二对话语句进行用户画像抽取的示例图;
51.图5为本申请实施例提供的另一种基于对话的用户画像抽取方法的流程示意图;
52.图6为本申请实施例提供的一种基于对话的用户画像抽取装置的结构示意图;
53.图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
54.为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
55.本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
56.本申请实施例提供一种基于对话的用户画像抽取方法,可基于图1所示的网络系统架构实施,请参见图1,该网络系统架构中包括终端和电子设备,终端和电子设备通过有线或无线的网络通信连接,终端为用户和业务员使用的终端设备,可以是用户和业务员的手机、平板、电脑、个人数字助理(personal digital assistant,pda)等,终端用于向电子设备提供用户和业务员之间的对话语句,该对话语句可以是用户和业务员之间的实时对话语句,也可以是开发者从数据库中提取出的日志记录中的历史对话语句。电子设备至少包括通信模块和处理模块,通信模块集成有数字协议接口,通信模块通过数字协议接口获取终端提交的对话语句,并向处理模块转发该对话语句,由处理模块对该对话语句执行实体识别、指代消解、用户画像抽取、用户画像过滤以及用户画像合并等操作,由于上述操作不单单是针对对话中用户的回答进行的,还考虑了业务员的对话语句,能够在多轮对话中抽取出更多的用户画像,从而提高用户画像抽取的准确度。示例性的,电子设备可以是独立的
物理服务器,也可以是服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。
57.基于图1所示的网络系统架构,以下结合其他附图对本申请实施例提供的基于对话的用户画像抽取方法进行详细阐述。
58.请参见图2,图2为本申请实施例提供的一种基于对话的用户画像抽取方法的流程示意图,该方法应用于电子设备,如图2所示,包括步骤s21

s25:
59.s21,获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句。
60.本公开实施例中,多轮对话可以是用户和业务员业务沟通中产生的实时对话,也可以是离线日志中提取出的用户和业务员的对话记录,比如客服系统中产生的对话记录、电话沟通中产生的对话记录,等等。其中,业务员包括但不限于业务工作人员、智能对话系统、对话机器人。
61.s22,对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表。
62.本公开实施例中,针对第一对话语句和第二对话语句,可以采用关键词词典进行实体识别,也可以采用命名实体识别模型进行实体识别,并对识别出的每个实体进行记录,以供后续实体继承和指代消解时使用。
63.在一种可能的实施方式中,上述对所述第一对话语句和所述第二对话语句进行实体识别,包括:
64.对所述第一对话语句和所述第二对话语句中的任一对话语句执行以下操作:
65.对所述任一对话语句进行分词得到单词序列;以预训练或随机初始化的词嵌入embedding矩阵将所述单词序列映射为词向量序列;将所述词向量序列输入双向lstm进行特征提取,得到所述任一对话语句对应的特征序列;将所述特征序列输入crf(conditional random field,条件随机场)层进行以对所述单词序列进行句子级的序列标注,得到所述单词序列对应的标签序列,基于所述标签序列得到所述任一对话语句中的实体。例如:对于业务员的第二对话语句“你家有小孩吗”,将其分词后的单词序列映射为词向量序列(x1,x2,x3,

,x6),将词向量序列(x1,x2,x3,

,x6)作为双向lstm的输入,双向lstm将其正向最后一层的输出结果与反向最后一层的输出结果按位置进行拼接,得到对应的特征序列(h1,h2,h3,

h6),将特征序列(h1,h2,h3,

h6)作为crf层的输入,crf层采用bio规则进行句子级序列标注,b表示实体词开始,i表示实体词内部,o表示不是实体词,实体词可以是预先定义的“小孩”、“老公”等词,对于crf层输出的标签序列(y1,y2,y3,

,y6),计算词向量序列(x1,x2,x3,

,x6)中每个x的标签属于y的概率,将该概率大于或等于预设值的单词确定为实体词,由此识别出第二对话语句中的实体。
66.s23,对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句。
67.本公开实施例中,目标第一对话语句是指对第一对话语句中的代词进行指代消解得到的对话语句,同理,目标第二对话语句是指对第二对话语句中的代词进行指代消解得
到的对话语句。其中,预设数据表用于存储多轮对话的每轮对话中识别出的实体,对代词的识别可以采用关键词词典、正则表达式等。
68.在一种可能的实施方式中,上述基于所述预设数据表中记录的实体对识别出的代词进行指代消解,包括:
69.在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;
70.在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体对识别出的代词进行指代消解;其中,历史轮次对话是指所述多轮对话中所述目标轮次对话之前的对话。
71.可以理解的,当任意一轮对话为首轮对话时,预设数据表中仅记录了该首轮对话中识别出的实体,当任意一轮对话为非首轮对话(即上述目标轮次对话)时,预设数据表中记录了该目标轮次对话以及该目标轮次对话之前的历史轮次对话中识别出的实体。对代词进行指代消解可采用指代消解模型进行,指代消解模型通过将识别出的代词与预设数据表中记录的实体进行配对,然后计算每对的得分,将得分最大的一对中的实体作为代词的先行词以完成指代消解。例如,a:你家有小孩吗?b:他都上高中了。通过将代词“他”与预设数据表中的实体进行配对,得到这里的“他”实际上是指a的对话语句中的“小孩”,则进行指代消解后得到的目标第一对话语句可以是“(我)小孩都上高中了”。
72.s24,基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取。
73.本公开实施例中,第一预设规则是针对用户身份设计的匹配规则,第二预设规则是针对业务员身份设计的匹配规则。
74.在一种可能的实施方式中,如图3所示,上述基于第一预设规则对所述目标第一对话语句进行用户画像抽取,包括步骤s31

s34:
75.s31,对所述目标第一对话语句进行敏感词和业务话术检测,以得到第一候选规则集;
76.s32,采用正则表达式对所述目标第一对话语句进行规则匹配,得到第二候选规则集;
77.s33,对所述第一候选规则集和所述第二候选规则集取交集,得到第三候选规则集;
78.s34,在所述第三候选规则集中的规则为所述第一预设规则的情况下,抽取所述目标第一对话语句中的用户画像。
79.其中,在得到第一候选规则集方面,若目标第一对话语句中未检测出敏感词以及目标第一对话语句不符合业务话术,则采用基于多槽哈夫曼trie树的规则引擎对目标第一对话语句进行规则匹配得到第一候选规则集。
80.在一种可能的实施方式中,如图4所示,上述基于第二预设规则对所述目标第二对话语句进行用户画像抽取,包括步骤s41

s44:
81.s41,对所述目标第二对话语句进行所述敏感词和所述业务话术检测,以得到第四候选规则集;
82.s42,采用正则表达式对所述目标第二对话语句进行规则匹配,得到第五候选规则集;
83.s43,对所述第四候选规则集和所述第五候选规则集取交集,得到第六候选规则集;
84.s44,在所述第六候选规则集中的规则为所述第二预设规则的情况下,抽取所述目标第二对话语句中的用户画像。
85.其中,在得到第四候选规则集方面,若目标第二对话语句中未检测出敏感词以及目标第二对话语句不符合业务话术的情况下,采用基于多槽哈夫曼trie树的规则引擎对目标第二对话语句进行规则匹配,得到第四候选规则集。
86.具体的,对用户的对话语句和业务员的对话语句采用不同的规则进行匹配,在进行规则匹配之前,先对对话语句进行敏感词和业务话术检测,由于预先规定了某些敏感词或业务话术不允许从中抽取用户画像,比如“我听说/我有个朋友/我的某个亲戚”这种开头的对话语句会干扰挖掘出的用户画像,可将其归为业务话术进行排除,可选的,可采用正则表达式进行敏感词和业务话术检测。若目标第一对话语句和目标第二对话语句中不包括敏感词,或者不属于业务话术一类,则先采用基于多槽哈夫曼trie树的规则引擎进行规则匹配,其中,基于多槽哈夫曼trie树的规则引擎预先定义了规则模板,对于目标第一对话语句和目标第二对话语句,先匹配到对应的槽位,例如“冬天的北京真好看”,其中的“冬天”命中了季节的槽位,“北京”命中了地点的槽位,对于命中的每个槽位,在槽中递归查找哈夫曼trie树对应的叶子节点求得包含的规则集合,对多个槽位的规则集合取交集得到候选规则集。基于多槽哈夫曼trie树的规则引擎虽然能够优化规则匹配性能,但是其还具有覆盖不到的业务逻辑,而正则表达式支持的规则模板覆盖面更大,因此,可采用正则表达式对对话语句再次进行规则匹配,以作逻辑补充,对于两次规则匹配得到的候选规则集(即第一候选规则集和第二候选规则集、第四候选规则集和第五候选规则集)中可能存在相同规则的情况,此处对其取交集,以将相同规则过滤掉。最后将上述第三候选规则集确定为目标第一对话语句命中的规则,将上述第六候选规则集确定为目标第二对话语句命中的规则,然后判断第三候选规则集中的规则是否属于第一预设规则,若是,则对目标第一对话语句进行用户画像抽取,判断第六候选规则集中的规则是否属于第二预设规则,若是,则对目标第二对话语句进行用户画像抽取。
87.示例性的,还可以采用训练好的自然语言处理模型对目标第一对话语句和目标第二对话语句进行用户画像抽取,以目标第一对话语句为例,对目标第一对话语句进行预处理,其中,预处理包括但不限于纠错、简繁体转换、特殊符号处理,将预处理后的目标第一对话语句输入训练好的自然语言处理模型进行标签分类,得到至少一类用户画像的标签,根据该标签得到对应的用户画像。其中,用户画像的类别可以是性别、婚姻状况、是否成家等,该标签以热独向量表示,该标签包括至少两个维度,以“性别”为例,“性别”铺平为两个维度,若用户为男性则第一维为1,第二维为0,若用户为女性则第二维为1,第一维为0,再例如,若业务需求比较关注用户“是否成家”,则可以将“是否成家”这一用户画像分为“未婚无娃,未婚有娃,已婚无娃,已婚有娃”等维度。与目标第一对话语句类似的,目标第二对话语
句也可采用上述自然语言处理模型进行用户画像抽取,此处不再赘述。该实施方式中,可以根据业务需求自主制定用户画像的标签及标签维度,使用户画像抽取更具灵活性。
88.s25,对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
89.本公开实施例中,对用户的对话语句的规则相对宽松,只要目标第一对话语句命中第一预设规则,则认为目标第一对话语句中抽取出的用户画像为用户的用户画像,而业务员的对话语句的规则会相对缩紧,目标第二对话语句除了命中第二预设规则以外,还要对其主语进行限定,若目标第二对话语句的主语中不存在“您”、“你”等预设词,则认为目标第二对话语句描述的是业务员自己,那么,目标第二对话语句中抽取出的用户画像即是业务员的用户画像,将其过滤,使得每个单句仅保留属于用户的用户画像,最终将多轮对话中抽取出的属于用户的目标用户画像进行合并,得到用户完整的用户画像。
90.在一种可能的实施方式中,在得到所述任意一轮对话中属于用户的用户画像之后,该方法还包括:
91.对所述任意一轮对话中属于用户的用户画像进行冲突检测,采用投票策略确定出所述任意一轮对话中的所述目标用户画像。
92.其中,目标用户画像是指经过冲突检测后得到的属于该用户的用户画像,比如某一轮对话中共有5句识别到属于该用户的用户画像,其中3句认为用户为女,1句认为用户为男,则该轮对话中的目标用户画像即为男。
93.可以看出,本申请实施例通过获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。这样通过实体识别和指代消解对多轮对话中用户的对话语句和业务员的对话语句进行处理,将对话中的代词与实体对应上,有利于克服基于单句对话的用户画像抽取中代词难以被准确识别为实体的问题,使得多轮对话中的对话语句更为完整,一方面有利于提升单句对话中抽取出用户画像的可能性,以抽取出更多用户画像,从而使得对一个用户的刻画更为准确,另一方面有利于后续基于指代消解后得到的对话语句进行身份判断,以过滤掉描述业务员的用户画像。
94.请参见图5,图5本申请实施例提供的另一种基于对话的用户画像抽取方法的流程示意图,同样可基于图1所示的网络系统架构实施,如图5所示,包括步骤s51

s57:
95.s51,获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
96.s52,对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
97.s53,对所述第一对话语句和所述第二对话语句中的代词进行识别;
98.在所述任意一轮对话为所述多轮对话的首轮对话的情况下,执行步骤s54;在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,执行步骤s55;
99.s54,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
100.s55,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
101.其中,历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话;
102.s56,基于第一预设规则对该目标第一对话语句进行用户画像抽取,以及基于第二预设规则对该目标第二对话语句进行用户画像抽取;
103.s57,对该目标第一对话语句和该目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
104.其中,步骤s51

s57的具体实施方式在图2所示的实施例中已有相关说明,且能达到相同或相似的有益效果,为避免重复,此处不再赘述。
105.基于上述基于对话的用户画像抽取方法实施例的描述,请参见图6,图6为本申请实施例提供的一种基于对话的用户画像抽取装置的结构示意图,如图6所示,该装置包括:
106.对话获取模块61,用于获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
107.实体识别模块62,用于对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
108.指代消解模块63,用于对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
109.画像抽取模块64,用于基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
110.画像合并模块65,用于对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
111.在一种可能的实施方式中,在基于所述预设数据表中记录的实体对识别出的代词进行指代消解方面,所述指代消解模块63具体用于:
112.在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;
113.在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中
识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的实体对识别出的代词进行指代消解;其中,所述历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话。
114.在一种可能的实施方式中,在基于第一预设规则对所述目标第一对话语句进行用户画像抽取方面,画像抽取模块64具体用于:
115.对所述目标第一对话语句进行敏感词和业务话术检测,以得到第一候选规则集;
116.采用正则表达式对所述目标第一对话语句进行规则匹配,得到第二候选规则集;
117.对所述第一候选规则集和所述第二候选规则集取交集,得到第三候选规则集;
118.在所述第三候选规则集中的规则为所述第一预设规则的情况下,抽取所述目标第一对话语句中的用户画像。
119.在一种可能的实施方式中,在得到第一候选规则集方面,画像抽取模块64具体用于:
120.在所述目标第一对话语句中未检测出所述敏感词以及所述目标第一对话语句不符合所述业务话术的情况下,采用基于多槽哈夫曼trie树的规则引擎对所述目标第一对话语句进行规则匹配得到所述第一候选规则集。
121.在一种可能的实施方式中,在基于第二预设规则对所述目标第二对话语句进行用户画像抽取方面,画像抽取模块64具体用于:
122.对所述目标第二对话语句进行所述敏感词和所述业务话术检测,以得到第四候选规则集;
123.采用正则表达式对所述目标第二对话语句进行规则匹配,得到第五候选规则集;
124.对所述第四候选规则集和所述第五候选规则集取交集,得到第六候选规则集;
125.在所述第六候选规则集中的规则为所述第二预设规则的情况下,抽取所述目标第二对话语句中的用户画像。
126.在一种可能的实施方式中,画像合并模块65还用于:
127.对所述任意一轮对话中属于用户的用户画像进行冲突检测,采用投票策略确定出所述任意一轮对话中的所述目标用户画像。
128.根据本申请的一个实施例,图6所示的基于对话的用户画像抽取装置的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于对话的用户画像抽取装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
129.根据本申请的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的基于对话的用户画像抽取装置设备,以及来实现本申请实施例的基于对话的用户画像抽取方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
130.基于上述方法实施例和装置实施例的描述,本申请实施例还提供一种电子设备。请参见图7,该电子设备至少包括处理器71、输入设备72、输出设备73以及计算机存储介质74。其中,电子设备内的处理器71、输入设备72、输出设备73以及计算机存储介质74可通过总线或其他方式连接。
131.计算机存储介质74可以存储在电子设备的存储器中,所述计算机存储介质74用于存储计算机程序,所述计算机程序包括程序指令,所述处理器71用于执行所述计算机存储介质74存储的程序指令。处理器71(或称cpu(central processing unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
132.在一个实施例中,本申请实施例提供的电子设备的处理器71可以用于进行一系列基于对话的用户画像抽取:
133.获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;
134.对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;
135.对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;
136.基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;
137.对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。
138.再一个实施例中,处理器71执行所述基于所述预设数据表中记录的实体对识别出的代词进行指代消解,包括:
139.在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;
140.在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的实体对识别出的代词进行指代消解;其中,所述历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话。
141.再一个实施例中,处理器71执行所述基于第一预设规则对所述目标第一对话语句进行用户画像抽取,包括:
142.对所述目标第一对话语句进行敏感词和业务话术检测,以得到第一候选规则集;
143.采用正则表达式对所述目标第一对话语句进行规则匹配,得到第二候选规则集;
144.对所述第一候选规则集和所述第二候选规则集取交集,得到第三候选规则集;
145.在所述第三候选规则集中的规则为所述第一预设规则的情况下,抽取所述目标第一对话语句中的用户画像。
146.再一个实施例中,处理器71执行所述得到第一候选规则集,包括:
147.在所述目标第一对话语句中未检测出所述敏感词以及所述目标第一对话语句不符合所述业务话术的情况下,采用基于多槽哈夫曼trie树的规则引擎对所述目标第一对话语句进行规则匹配得到所述第一候选规则集。
148.再一个实施例中,处理器71执行所述基于第二预设规则对所述目标第二对话语句进行用户画像抽取,包括:
149.对所述目标第二对话语句进行所述敏感词和所述业务话术检测,以得到第四候选规则集;
150.采用正则表达式对所述目标第二对话语句进行规则匹配,得到第五候选规则集;
151.对所述第四候选规则集和所述第五候选规则集取交集,得到第六候选规则集;
152.在所述第六候选规则集中的规则为所述第二预设规则的情况下,抽取所述目标第二对话语句中的用户画像。
153.再一个实施例中,在得到所述任意一轮对话中属于用户的用户画像之后,处理器71还用于:
154.对所述任意一轮对话中属于用户的用户画像进行冲突检测,采用投票策略确定出所述任意一轮对话中的所述目标用户画像。
155.示例性的,电子设备包括但不仅限于处理器71、输入设备72、输出设备73以及计算机存储介质74。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
156.需要说明的是,由于电子设备的处理器71执行计算机程序时实现上述的基于对话的用户画像抽取方法中的步骤,因此上述基于对话的用户画像抽取方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
157.本申请实施例还提供了一种计算机存储介质(memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器71加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non

volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器71的计算机存储介质。在一个实施例中,可由处理器71加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关基于对话的用户画像抽取方法的相应步骤。
158.示例性的,计算机存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
159.需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的基
于对话的用户画像抽取方法中的步骤,因此上述基于对话的用户画像抽取方法的所有实施例均适用于该计算机存储介质,且均能达到相同或相似的有益效果。
160.以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

技术特征:
1.一种基于对话的用户画像抽取方法,其特征在于,所述方法包括:获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。2.根据权利要求1所述的方法,其特征在于,所述基于所述预设数据表中记录的实体对识别出的代词进行指代消解,包括:在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的实体对识别出的代词进行指代消解;其中,所述历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话。3.根据权利要求1所述的方法,其特征在于,所述基于第一预设规则对所述目标第一对话语句进行用户画像抽取,包括:对所述目标第一对话语句进行敏感词和业务话术检测,以得到第一候选规则集;采用正则表达式对所述目标第一对话语句进行规则匹配,得到第二候选规则集;对所述第一候选规则集和所述第二候选规则集取交集,得到第三候选规则集;在所述第三候选规则集中的规则为所述第一预设规则的情况下,抽取所述目标第一对话语句中的用户画像。4.根据权利要求3所述的方法,其特征在于,所述得到第一候选规则集,包括:在所述目标第一对话语句中未检测出所述敏感词以及所述目标第一对话语句不符合所述业务话术的情况下,采用基于多槽哈夫曼trie树的规则引擎对所述目标第一对话语句进行规则匹配得到所述第一候选规则集。5.根据权利要求3所述的方法,其特征在于,所述基于第二预设规则对所述目标第二对话语句进行用户画像抽取,包括:对所述目标第二对话语句进行所述敏感词和所述业务话术检测,以得到第四候选规则集;采用正则表达式对所述目标第二对话语句进行规则匹配,得到第五候选规则集;对所述第四候选规则集和所述第五候选规则集取交集,得到第六候选规则集;在所述第六候选规则集中的规则为所述第二预设规则的情况下,抽取所述目标第二对
话语句中的用户画像。6.根据权利要求1

5任一项所述的方法,其特征在于,在得到所述任意一轮对话中属于用户的用户画像之后,所述方法还包括:对所述任意一轮对话中属于用户的用户画像进行冲突检测,采用投票策略确定出所述任意一轮对话中的所述目标用户画像。7.一种基于对话的用户画像抽取装置,其特征在于,所述装置包括:对话获取模块,用于获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;实体识别模块,用于对所述第一对话语句和所述第二对话语句进行实体识别,并将识别出的实体记录至预设数据表;指代消解模块,用于对所述第一对话语句和所述第二对话语句中的代词进行识别,基于所述预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;画像抽取模块,用于基于第一预设规则对所述目标第一对话语句进行用户画像抽取,以及基于第二预设规则对所述目标第二对话语句进行用户画像抽取;画像合并模块,用于对所述目标第一对话语句和所述目标第二对话语句中抽取出的属于业务员的用户画像进行过滤,得到所述任意一轮对话中属于用户的用户画像,将所述多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。8.根据权利要求7所述的装置,其特征在于,在基于所述预设数据表中记录的实体对识别出的代词进行指代消解方面,所述指代消解模块具体用于:在所述任意一轮对话为所述多轮对话的首轮对话的情况下,从所述预设数据表中获取所述首轮对话中识别出的实体,基于所述首轮对话中识别出的实体对识别出的代词进行指代消解;在所述任意一轮对话为所述多轮对话中除所述首轮对话以外的目标轮次对话的情况下,从所述预设数据表中获取所述目标轮次对话中识别出的实体以及历史轮次对话中识别出的实体,基于所述目标轮次对话中识别出的实体以及所述历史轮次对话中识别出的实体对识别出的代词进行指代消解;其中,所述历史轮次对话为所述多轮对话中所述目标轮次对话之前的对话。9.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1

6任一项所述的方法。10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1

6任一项所述的方法。
技术总结
本申请实施例提供一种基于对话的用户画像抽取方法及相关装置,其中,该方法包括:获取多轮对话的任意一轮对话中用户的第一对话语句及业务员的第二对话语句;对第一对话语句和第二对话语句进行实体识别;对第一对话语句和第二对话语句中的代词进行识别,基于预设数据表中记录的实体对识别出的代词进行指代消解,得到目标第一对话语句和目标第二对话语句;然后对目标第一对话语句和目标第二对话语句进行用户画像抽取;对抽取出的属于业务员的用户画像进行过滤,得到任意一轮对话中属于用户的用户画像,将多轮对话的每一轮对话中抽取出的属于用户的目标用户画像合并。本申请实施例有利于提高用户画像抽取的准确度。利于提高用户画像抽取的准确度。利于提高用户画像抽取的准确度。


技术研发人员:孙梓淇 张智 白祚 莫洋
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2021.04.26
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-13147.html

最新回复(0)