本发明涉及用户画像技术领域,尤其涉及一种基于知识图谱的用户动态个性化画像方法。
背景技术:
目前,随着大数据技术的广泛应用,不同领域都利用大数据来对其用户进行相应的分析,以便得到其用户人群的特征和属性,来进一步扩展用户。对此,针对用户人群的画像技术就受到重视而发展起来。
但现有的针对用户的画像方法,对于不同人群、不同用户采用相同的算法,采用的语料和数据也是来自多渠道、多领域的数据,只能简单反映用户的画像,无法体系的、系统的、精准的反映出针对不同领域用户人群的个性化画像,而且,由于用户的兴趣点和关注点等更新、变化速度较快,现有技术无法快速、动态地更新其用户画像,对于用户画像的精准度和实时性均有影响。
技术实现要素:
针对上述问题,本发明提供了一种基于知识图谱的用户动态个性化画像方法,通过对用户画像所采集到的数据进行知识图谱的构建,从而能够对用户数据中的实体、实体关系和属性等进行挖掘和分析,并利用可视化技术形象展示,与用户画像技术也能进行有机的结合,此外,通过词向量空间中欧式距离的计算,来得到当前用户的数据中的语义相近实体,从而通过向量相似性得到最能代表当前用户的特征标签,再通过对用户数据的实时采集更新,从而得到用户的动态个性化画像,保证了用户画像的精准性和实时性。
为实现上述目的,本发明提供了一种基于知识图谱的用户动态个性化画像方法,包括:实时采集所要画像用户的用户数据;将所述用户数据输入命名实体识别模型以获取所述用户数据中的实体和相应的实体关系;基于知识融合技术对所述实体进行数据归类,得到所述用户多维的行为数据;针对所述行为数据进行字段筛选后构建面向用户画像的知识图谱;将所述知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离;根据所述欧式距离确定所述知识图谱中语义相近的实体以及词语与所述实体之间的相关性,根据所述相关性构建用户行为标签表;根据实时采集数据的迭代处理更新所述用户行为标签表,并构建所述用户的动态个性化画像。
在上述技术方案中,优选地,所述实时采集所要画像用户的用户数据具体包括:通过数据抓取工具针对所述用户的多终端、多系统和多领域数据进行实时动态抓取。
在上述技术方案中,优选地,所述将所述用户数据输入命名实体识别模型以获取所述用户数据中的实体和相应的实体关系具体包括:将所述用户数据输入基于深度学习的命名实体识别模型中;所述命名实体识别模型对所述用户数据进行实体识别和关系抽取,得到所述用户数据中的实体和相应实体之间的实体关系。
在上述技术方案中,优选地,所述基于知识融合技术对所述实体进行数据归类得到所述用户多维的行为数据具体包括:采用基于跨模态共享子空间学习理论的知识融合技术对所述命名实体识别模型获取得到的所述实体进行分类,得到多维度的实体分类作为所述用户的行为数据。
在上述技术方案中,优选地,所述将所述知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离具体包括:利用深度语义模型将所述知识图谱中的实体采用词向量进行表示,形成词向量空间;利用知识图谱的实体之间的语义相似性和逻辑相关性,在所述词向量空间中计算相关词语之间的欧式距离。
在上述技术方案中,优选地,所述根据所述欧式距离确定所述知识图谱中语义相近的实体以及词语与所述实体之间的相关性,根据所述相关性构建用户行为标签表具体包括:根据所述欧式距离在所述知识图谱中得到通过需求词泛化得到的词语表示语义相近的实体;利用向量相似性计算得到该实体与标签语义相近的标签,并构建用户行为标签表。
在上述技术方案中,优选地,所述根据实时采集数据的迭代处理更新所述用户行为标签表并构建所述用户的动态个性化画像具体包括:根据实时采集到的数据,对所述用户的行为数据进行更新;根据更新的行为数据更新所述知识图谱;根据更新后的所述知识图谱更新所述用户行为标签表;根据更新后的用户行为标签表,构建所述用户的动态个性化画像。
在上述技术方案中,优选地,所述动态个性化画像中的特征标签根据出现频率以预设方式进行突出显示,所述预设方式包括增大该特征标签显示字号、以不同颜色突出显示该特征标签、将该特征标签显示于动态个性化图像中心区域或该特征标签与其他标签之间的密度小于普通标签之间的密度。
与现有技术相比,本发明的有益效果为:通过对用户画像所采集到的数据进行知识图谱的构建,从而能够对用户数据中的实体、实体关系和属性等进行挖掘和分析,并利用可视化技术形象展示,与用户画像技术也能进行有机的结合,此外,通过词向量空间中欧式距离的计算,来得到当前用户的数据中的语义相近实体,从而通过向量相似性得到最能代表当前用户的特征标签,再通过对用户数据的实时采集更新,从而得到用户的动态个性化画像,保证了用户画像的精准性和实时性。
附图说明
图1为本发明一种实施例公开的基于知识图谱的用户动态个性化画像方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于知识图谱的用户动态个性化画像方法,包括:实时采集所要画像用户的用户数据;将用户数据输入命名实体识别模型以获取用户数据中的实体和相应的实体关系;基于知识融合技术对实体进行数据归类,得到用户多维的行为数据;针对行为数据进行字段筛选后构建面向用户画像的知识图谱;将知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离;根据欧式距离确定知识图谱中语义相近的实体以及词语与实体之间的相关性,根据相关性构建用户行为标签表;根据实时采集数据的迭代处理更新用户行为标签表,并构建用户的动态个性化画像。
在该实施例中,通过对用户画像所采集到的数据进行知识图谱的构建,从而能够对用户数据中的实体、实体关系和属性等进行挖掘和分析,并利用可视化技术形象展示,与用户画像技术也能进行有机的结合,此外,通过词向量空间中欧式距离的计算,来得到当前用户的数据中的语义相近实体,从而通过向量相似性得到最能代表当前用户的特征标签,再通过对用户数据的实时采集更新,从而得到用户的动态个性化画像,保证了用户画像的精准性和实时性。
具体地,对特定的需求信息进行解析,并进行语义泛化,得到与该需求信息的语义接近的词语表示。然后,利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性,通过在词向量空间中计算相关词语之间的欧氏距离,对所有通过需求词泛化得到的词语表示,在知识图谱中寻找语义相近的实体,通过欧氏距离的表示可以得到词语与实体之间的相关性。在得到语义有关的知识实体之后,同样利用向量的相似性计算得到相关实体与已知用户行为标签语义相近的标签表。依据相似值的大小,得到与标签对应用户的相关性的强弱,生成可以表示用户特征的用户行为标签。
进一步地,通过实时采集地大量真实用户数据,包括用户的手机app行为数据、浏览器搜索词数据、游戏直播等娱乐消费数据等,抽取相对实体的属性值,丰富对实体的描述。此外,通过搜索日志发现新的实体或新的实体属性,不断扩展知识图谱的覆盖率。基于此,实现对用户个性化画像的动态更新,保证用户画像的实时性和精准性。
在上述实施例中,优选地,实时采集所要画像用户的用户数据具体包括:通过数据抓取工具针对用户的多终端、多系统和多领域数据进行实时动态抓取,比如用户的手机app行为数据、浏览器搜索词数据、游戏直播等娱乐消费数据等。
在上述实施例中,优选地,将用户数据输入命名实体识别模型以获取用户数据中的实体和相应的实体关系具体包括:将用户数据输入基于深度学习的命名实体识别模型中;命名实体识别模型对用户数据进行实体识别、关系抽取以及属性抽取技术,得到用户数据中的实体和相应实体之间的实体关系。
在上述实施例中,优选地,基于知识融合技术对实体进行数据归类得到用户多维的行为数据具体包括:采用基于跨模态共享子空间学习理论的知识融合技术对命名实体识别模型获取得到的实体进行分类,得到多维度的实体分类作为用户的行为数据,包括社会属性、生活习惯、消费行为等数据。
在上述实施例中,优选地,将知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离具体包括:利用深度语义模型将知识图谱中的实体采用词向量进行表示,形成词向量空间;利用知识图谱的实体之间的语义相似性和逻辑相关性,在词向量空间中计算相关词语之间的欧式距离。
在上述实施例中,优选地,根据欧式距离确定知识图谱中语义相近的实体以及词语与实体之间的相关性,根据相关性构建用户行为标签表具体包括:根据欧式距离在知识图谱中得到通过需求词泛化得到的词语表示语义相近的实体;利用向量相似性计算得到该实体与标签语义相近的标签,并构建用户行为标签表。
具体地,利用深度语义模型表示成词向量表示,利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性,通过在词向量空间中计算相关词语之间的欧氏距离,对所有通过需求词泛化得到的词语表示,在知识图谱中寻找语义相近的实体,通过欧氏距离的表示可以得到词语与实体之间的相关性。得到语义有关的知识实体之后,同样利用向量的相似性计算得到相关实体与已知用户行为标签语义相近的标签表。依据相似值的大小,通过组合计算,得到与标签对应用户的相关性的强弱,生成可以表示用户特征的用户行为标签。
在上述实施例中,优选地,根据实时采集数据的迭代处理更新用户行为标签表并构建用户的动态个性化画像具体包括:根据实时采集到的数据,对用户的行为数据进行更新;根据更新的行为数据更新知识图谱;根据更新后的知识图谱更新用户行为标签表;根据更新后的用户行为标签表,构建用户的动态个性化画像。
在上述实施例中,优选地,动态个性化画像中的特征标签根据出现频率以预设方式进行突出显示,预设方式包括增大该特征标签显示字号、以不同颜色突出显示该特征标签、将该特征标签显示于动态个性化图像中心区域或该特征标签与其他标签之间的密度小于普通标签之间的密度。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种基于知识图谱的用户动态个性化画像方法,其特征在于,包括:
实时采集所要画像用户的用户数据;
将所述用户数据输入命名实体识别模型以获取所述用户数据中的实体和相应的实体关系;
基于知识融合技术对所述实体进行数据归类,得到所述用户多维的行为数据;
针对所述行为数据进行字段筛选后构建面向用户画像的知识图谱;
将所述知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离;
根据所述欧式距离确定所述知识图谱中语义相近的实体以及词语与所述实体之间的相关性,根据所述相关性构建用户行为标签表;
根据实时采集数据的迭代处理更新所述用户行为标签表,并构建所述用户的动态个性化画像。
2.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述实时采集所要画像用户的用户数据具体包括:
通过数据抓取工具针对所述用户的多终端、多系统和多领域数据进行实时动态抓取。
3.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述将所述用户数据输入命名实体识别模型以获取所述用户数据中的实体和相应的实体关系具体包括:
将所述用户数据输入基于深度学习的命名实体识别模型中;
所述命名实体识别模型对所述用户数据进行实体识别和关系抽取,得到所述用户数据中的实体和相应实体之间的实体关系。
4.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述基于知识融合技术对所述实体进行数据归类得到所述用户多维的行为数据具体包括:
采用基于跨模态共享子空间学习理论的知识融合技术对所述命名实体识别模型获取得到的所述实体进行分类,得到多维度的实体分类作为所述用户的行为数据。
5.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述将所述知识图谱中实体采用词向量表示,在词向量空间中计算词语之间的欧式距离具体包括:
利用深度语义模型将所述知识图谱中的实体采用词向量进行表示,形成词向量空间;
利用知识图谱的实体之间的语义相似性和逻辑相关性,在所述词向量空间中计算相关词语之间的欧式距离。
6.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述根据所述欧式距离确定所述知识图谱中语义相近的实体以及词语与所述实体之间的相关性,根据所述相关性构建用户行为标签表具体包括:
根据所述欧式距离在所述知识图谱中得到通过需求词泛化得到的词语表示语义相近的实体;
利用向量相似性计算得到该实体与标签语义相近的标签,并构建用户行为标签表。
7.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述根据实时采集数据的迭代处理更新所述用户行为标签表并构建所述用户的动态个性化画像具体包括:
根据实时采集到的数据,对所述用户的行为数据进行更新;
根据更新的行为数据更新所述知识图谱;
根据更新后的所述知识图谱更新所述用户行为标签表;
根据更新后的用户行为标签表,构建所述用户的动态个性化画像。
8.根据权利要求1所述的基于知识图谱的用户动态个性化画像方法,其特征在于,所述动态个性化画像中的特征标签根据出现频率以预设方式进行突出显示,所述预设方式包括增大该特征标签显示字号、以不同颜色突出显示该特征标签、将该特征标签显示于动态个性化图像中心区域或该特征标签与其他标签之间的密度小于普通标签之间的密度。
技术总结