1.本公开涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术:
2.随着互联网技术的日渐成熟,人们的消费和行为习惯发生了巨大的变化,人们连入互联网的方式也呈多元发展。在日常生活中,用户可以随时随地的通过手机app、pc、微信小程序、h5、o2o中的任意一种方式去接入某公司不同域的业务系统,使得用户能够浏览、查询或咨询相关感兴趣的内容。相应的,该公司不同域的业务系统中就会产生同一个用户的不同行为特征数据。在未进行处理前,这些行为特征数据彼此之间可能是孤立的,不仅无法利用起来,而且还不便于管理,所以出于加强数据管理的目的,很多公司会建立以“人”为中心的“一人一档”数据管理业务,即将各种业务系统中的行为特征数据进行汇聚起来,然后将同一个用户在该公司全域的行为特征数据串联在一起,消除数据孤岛。
3.现有技术中,现有技术中通过构建连通图将具有关联关系的用户标识数据进行关联,但是当同一连通子图中包括不同自然人的用户标识数据时,无法对自然人进行区别。
技术实现要素:
4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据处理方法、装置、电子设备和存储介质。
5.第一方面,本公开实施例提供了一种数据处理方法,包括:获取数据库中的用户标识数据及各个所述用户标识数据之间的第一目标关联关系;根据所述用户标识数据及所述第一目标关联关系构建连通图,所述连通图包括多个连通子图,每个所述连通子图中的每一个节点对应一个所述用户标识数据,每个所述连通子图中的每一条连接线对应一个所述第一目标关联关系;针对每个所述连通子图,排除所述连通子图中的根节点,得到与所述连通子图对应的至少两个子连通衍图;获取所述至少两个子连通衍图之间的相似度;根据所述子连通衍图之间的相似度确定所述子连通衍图的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标连通子图,所述目标连通子图包括至少两个子连通衍图的节点。
6.可选的,所述根据所述子连通衍图之间的相似度确定所述子连通衍图的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标连通子图,包括:根据所述子连通衍图中各主节点之间的用户标识特征相似度确定所述子连通衍图中各主节点的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标子连通衍图;将排除的所述连通子图中的根节点添加到生成的所述目标子连通衍图中并生成目标连通子图。
7.可选的,所述根据所述子连通衍图中各主节点之间的用户标识特征相似度确定所述子连通衍图中各主节点的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标子连通衍图,包括:在所述子连通衍图中的主节点的用户标识相似度满足预设用户标识相似度时,建立所述主节点之间的第二目标关联关系;根据所述主节点之间的第二目标关联关系生成目标子连通衍图。
8.可选的,所述根据所述子连通衍图之间的相似度确定所述子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,包括:根据所述子连通衍图中各从节点之间的用户标识特征相似度确定所述子连通衍图中与所述从节点对应的各主节点的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系并生成目标子连通衍图;将排除的所述连通子图中的根节点添加到生成的所述目标子连通衍图中并生成目标连通子图。
9.可选的,所述根据所述子连通衍图中各从节点之间的用户标识特征相似度确定所述子连通衍图中与所述从节点对应的各主节点的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标子连通衍图,包括:在所述子连通衍图的从节点的用户标识相似度满足预设用户标识相似度时,建立与所述从节点存在第一目标关联关系的主节点之间的第二目标关联关系;根据与所述从节点存在第一目标关联关系的主节点之间的第二目标关联关系生成目标子连通衍图。
10.可选的,所述获取数据库中的用户标识数据及各个所述用户标识数据之间的第一目标关联关系,包括:获取数据库中的用户标识数据及各个所述用户标识数据之间的第一关联关系;当两个用户标识数据之间存在多个相同的第一关联关系时,选取置信度较高的第一关联关系作为第一目标关联关系。
11.可选的,所述根据所述子连通衍图之间的相似度确定所述子连通衍图的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标连通子图之后,还包括:给每一个所述目标连通子图分配唯一标识符。
12.可选的,所述给每一个所述目标连通子图分配唯一标识符之后,还包括:周期性的提取数据库中新增的用户标识数据及各个所述用户标识数据之间新增的第一目标关联关系;将新增的所述用户标识数据作为新的节点添加到所述连通图中;依据新增的所述第一目标关联关系将所述连通子中具有第一目标关联关系的所述用户标识数据通过所述连接线相连接;给未分配唯一标识符的连通子图分配唯一标识符;当存在具有两个或多个唯一标识符的连通子图,按照设定规则从所述两个或多个唯一标识符中选择其中一个作为最终的唯一标识符。
13.可选的,所述按照设定规则从所述两个或多个唯一标识符中选择其中一个作为最终的唯一标识符,包括:
从所述两个或多个唯一标识符中选择分配时间最早的一个作为最终的唯一标识符。
14.第二方面,本公开实施例提供一种数据处理装置,包括:数据获取模块,用于获取数据库中的用户标识数据及各个所述用户标识数据之间的第一目标关联关系;连通图构建模块,用于根据所述用户标识数据及所述第一目标关联关系构建连通图,所述连通图包括多个连通子图,每个所述连通子图中的每一个节点对应一个所述用户标识数据,每个所述连通子图中的每一条连接线对应一个所述第一目标关联关系;目标连通子图生成模块,用于针对每个所述连通子图,排除所述连通子图中的根节点,得到与所述连通子图对应的至少两个子连通衍图;获取所述至少两个子连通衍图之间的相似度;根据所述子连通衍图之间的相似度确定所述子连通衍图的第二目标关联关系,并基于所述子连通衍图的第二目标关联关系生成目标连通子图,所述目标连通子图包括至少两个子连通衍图的节点。
15.第三方面,本公开实施例提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的数据处理方法。
16.第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面中任一所述的数据处理方法。
17.本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的数据的处理方法、装置、电子设备和存储介质,根据数据库中的用户标识数据以及各个用户标识数据之间的第一目标关联关系构建多个连通子图,针对每一个连通子图,排除连通子图中的根节点,得到与连通子图对应的至少两个子连通衍图,根据至少两个子连通衍图之间的相似度确定子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,实现当同一个连通子图包括不同自然人的用户标识数据时,根据子连通衍图之间的相似度区分该连通子图中不同自然人对应的用户标识数据,能够将同一自然人对应的用户标识数据串联在一起,消除数据孤岛,而且还可扩展性强、计算成本低,有效地解决了现有技术存在的识别过程繁琐、技术实现门槛高以及可落地性差的问题,具有较高的推广应用价值。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
19.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1是本公开实施例提供的一种数据处理方法的流程示意图;图2是本公开实施例提供的一种连通子图的结构示意图;
图3是本公开实施例提供的另一种连通子图的结构示意图;图4是本公开实施例提供的又一种连通子图的结构示意图;图5是本公开实施例提供的又一种连通子图的结构示意图;图6是本公开实施例提供的又一种连通子图的结构示意图;图7是本公开实施例提供的另一种数据处理方法的流程示意图;图8是本公开实施例提供的又一种连通子图的结构示意图;图9是本公开实施例提供的又一种数据处理方法的流程示意图;图10是本公开实施例提供的又一种连通子图的结构示意图;图11是本公开实施例提供的又一种连通子图的结构示意图;图12是本公开实施例提供的又一种连通子图的结构示意图;图13是本公开实施例提供的又一种连通子图的结构示意图;图14是本公开实施例提供的又一种数据处理方法的流程示意图;图15是本公开实施例提供的又一种数据处理方法的流程示意图;图16是本公开实施例提供的又一种数据处理方法的流程示意图;图17是本公开实施例提供的一种数据处理装置的结构示意图;图18是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
21.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
22.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
23.本公开的技术方案可以应用于电子设备,其中,电子设备可以是电脑、平板、手机或者其他智能终端设备等。该电子设备具有显示屏,其中,显示屏可以是触摸屏,也可以是非触摸屏,对于具有触摸屏的电子设备,用户可以通过手势、手指或者触控工具(例如,触控笔)实现与电子设备的交互操作。对于非触摸屏的电子设备,可以通过外部设备(例如,鼠标、键盘或者摄像头等)或者语音识别或者表情识别等实现与电子设备的交互操作。
24.其中,本公开对电子设备的操作系统的类型不做限定。例如,android系统、linux系统、windows系统、ios系统等。
25.图1是本公开实施例提供的一种数据处理方法的流程示意图,本实施例可适用于对数据进行处理的情况。本实施例方法可由数据处理装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中,可实现本技术任意实施例所述的数据处理方法。
26.现有技术中通过构建连通子图将具有关联关系的用户标识数据进行关联,但是当同一连通子图中包括不同自然人的用户标识数据时,无法对自然人进行区别。例如,采用同一个电话id关联自然人1的对应的用户标识数据以及自然人2的用户标识数据,此时,无法区别该连通子图中自然人1对应的用户标识数据以及自然人2对应的用户标识数据,为避免将共用一个电话或设备的多子女家庭成员误识别为同一自然人,本公开实施例提供一种数
据处理方法。
27.如图1所示,该方法具体包括如下:s10、获取数据库中的用户标识数据及各个用户标识数据之间的第一目标关联关系。
28.用户标识数据指的是用户的标识id(比如设备id、手机号码、ip地址、账号id、某信id、某众号id、加密电话、业务id等)。
29.具体的,当数据库对应的是教育公司的业务数据,当用户通过手机号码登录不同的业务系统,登录方式例如可以是通过手机app、pc、微信小程序、h5、o2o等方式,业务系统例如可以是业务系统1、业务系统2、业务系统3等,此时不同的业务系统对应不同的标识id。当用户会在登录某一个业务系统后在该业务系统上面参与不同的业务活动,而对应不同的业务获取也对应有不同的标识id,那么该用户在不同域的业务系统中就会存在多个不同的标识id,为了消除数据孤岛,本实施例需要将该用户在公司全域的用户信息数据串联在一起。
30.示例性的,用户通过手机号码1分别登录业务系统1、业务系统2和业务系统3,用户通过设备1分别登录业务系统3和业务系统4,且用户在业务系统1上进行业务活动1和业务活动2操作,在业务系统2上进行业务活动2操作,则该用户手机号码1对应的标识id为电话1,该用户登录的设备1对应的标识id为设备1,业务系统1对应的标识id为业务1,业务系统2对应的标识id为业务2,业务系统3对应的标识id为业务3,业务系统4对应的标识id为业务4,在业务系统1进行业务活动1操作对应的标识id为某众号id1,在业务系统1进行业务活动2操作对应的标识id为业务1学号1,在业务系统2进行业务活动2操作对应的标识id为业务2学号1。其中,电话1分别与业务1、业务2以及业务三之间存在第一目标关联关系,设备1分别与业务3和业务4之间存在第一目标关联关系,业务1分别与某众号id1和业务1学号1之间存在第一目标关联关系,业务2与业务2学号1存在第一目标关联关系。
31.s20、根据用户标识数据及第一目标关联关系构建连通图,连通图中包括多个连通子图。
32.其中,每个连通子图中的每一个节点对应一个用户标识数据,每个连通子图中的每一条连接线对应一个第一目标关联关系。
33.本实施例先将所有用户标识数据一一看成是连通子图上的节点,若任意两个用户标识数据之间存在关联关系,则将存在关联关系的两个用户标识数据在连通子图上的所对应的节点用一条连接线进行连接,从而形成一个完整的连通子图。
34.示例性的,电话1、设备1、业务1、业务2、业务3、业务4、某众号id1、业务1学号1、业务2学号1构成的一个连通子图如图2所示。
35.s30、针对每个连通子图,排除连通子图中的根节点,得到与连通子图对应的至少两个子连通衍图;获取至少两个子连通衍图之间的相似度。
36.图2中,通过电话1和设备1将具有第一目标关联关系的用户标识数据进行关联。但如果一个家庭包括两个自然人,且两个自然人均使用电话1和设备1,此时,图2构建的连通子图中包括不同自然人的用户标识数据,但无法对自然人进行区别,为避免将共用一个电话或设备的多子女家庭成员误识别为同一自然人,在构建好多个连通子图后针对每个连通子图,排除连通子图中的根节点,对应图2的连通子图的根节点为电话1和设备1,排除根节
点电话1和设备1后得到与该连通子图对应的子连通衍图,如图3所示,与图2连通子图对应的子连通衍图包括4个,分别为子连通衍图a,子连通衍图b,子连通衍图c和子连通衍图d,其中子连通衍图a对应的主节点为业务1,对应的从节点为众号id1和业务1学号1,子连通衍图b对应的主节点为业务2,对应的从节点为业务2学号1,子连通衍图c对应的主节点为业务3,子连通衍图d对应的主节点为业务4。
37.在得到与图2连通子图对应的至少两个子连通衍图后,通过获取至少两个子连通衍图之间的相似度,具体的,获取子连通衍图a和子连通衍图b的相似度,子连通衍图a和子连通衍图c的相似度、子连通衍图a和子连通衍图d的相似度、子连通衍图b和子连通衍图c的相似度、子连通衍图b和子连通衍图d的相似度以及子连通衍图c和子连通衍图d的相似度。
38.需要说明的是,获取至少两个子连通衍图之间的相似度可以为获取至少两个子连通衍图的主节点的相似度,也可以为获取至少两个子连通衍图的从节点的相似度。
39.示例性的,如图4所示,若子连通衍图a的主节点与子连通衍图b的主节点之间的相似度为0.25,子连通衍图a的主节点与子连通衍图c的主节点之间的相似度为1,子连通衍图a的主节点与子连通衍图d的主节点之间的相似度为0,连通子图b的主节点与子连通衍图c的主节点之间的相似度为0,子连通衍图b的主节点与子连通衍图d的主节点之间的相似度为1,子连通衍图c的主节点与子连通衍图d的主节点之间的相似度为0。
40.此外,也可以获取各连通子图中的从节点之间的相似度。
41.s40、根据子连通衍图之间的相似度确定子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系以及生成目标连通子图。
42.结合图4,由于子连通衍图a的主节点与子连通衍图c的主节点之间的相似度为1,子连通衍图b的主节点与子连通衍图d的主节点之间的相似度为1,则子连通衍图a的主节点与子连通衍图c的主节点之间存在第二目标关联关系,子连通衍图b的主节点与子连通衍图d的主节点之间存在第二目标关联关系,因此,基于子连通衍图的第二目标关联关系生成目标子连通衍图如图5所示,在获取到目标子连通衍图后,通过将排除的根节点添加到目标子连通衍图中生成目标连通子图,如图6所示,此时对应图2的连通子图,生成的目标连通子图包括目标连通子图a和目标连通子图b,其中,目标连通子图a对应一个家庭中一个自然人的用户标识数据,目标连通子图b对应同一各家庭中另一个自然人的用户标识数据。
43.本公开实施例提供的数据的处理方法,根据数据库中的用户标识数据以及各个用户标识数据之间的第一目标关联关系构建多个连通子图,针对每一个连通子图,排除连通子图中的根节点,得到与连通子图对应的至少两个子连通衍图,根据至少两个子连通衍图之间的相似度确定子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,实现当同一个连通子图包括不同自然人的用户标识数据时,根据子连通衍图之间的相似度区分该连通子图中不同自然人对应的用户标识数据,能够将同一自然人对应的用户标识数据串联在一起,消除数据孤岛,而且还可扩展性强、计算成本低,有效地解决了现有技术存在的识别过程繁琐、技术实现门槛高以及可落地性差的问题,具有较高的推广应用价值。
44.图7是本公开实施例提供的另一种数据处理方法,本实施例是在上述实施例的基础上,其中,步骤s40的一种可实现方式,包括:s41、根据子连通衍图中各主节点之间的用户标识特征相似度确定子连通衍图中
各主节点的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标子连通衍图。
45.可选的,在子连通衍图中的主节点的用户标识相似度满足预设用户标识相似度时,建立主节点之间的第二目标关联关系。
46.根据主节点之间的第二目标关联关系生成目标子连通衍图。
47.当用户通过手机号码或设备登录不同业务系统,由于登录信息中填写用户信息为非必填项,因此,会存在用户登录业务系统时填写的信息不同。
48.示例性的,在用户通过手机号码1分别登录业务系统1、业务系统2和业务系统3,用户通过设备1分别登录业务系统3和业务系统4的过程中,若用户通过手机号码1登录业务系统1时填写了姓名:常大,年龄:10,年级:四年级,城市:北京信息,用户通过手机号码1登录业务系统2时填写了姓名:常二,年龄:6,年级:一年级信息,通过手机号码1登录业务系统3时填写了年级:四年级信息,通过设备1登录业务系统4时填写了年级:一年级信息。
49.如图8所示,与图2中连通子图对应的子连通衍图包括4个,分别为子连通衍图a,子连通衍图b,子连通衍图c和子连通衍图d,此时,子连通衍图a的主节点的用户标识为姓名:常大,年龄:10,年级:四年级,城市:北京,子连通衍图b的主节点的用户标识为姓名:常二,年龄:6,年级:一年级,子连通衍图c的主节点的用户标识为年级:四年级,子连通衍图d的主节点的用户标识为年级:一年级,此时构建的子连通衍图a、子连通衍图b、子连通衍图c和子连通衍图d对应的主节点之间的用户标识特征相似度如图4所示,子连通衍图a的主节点与子连通衍图b的主节点之间的相似度为0.25,子连通衍图a的主节点与子连通衍图c的主节点之间的相似度为1,子连通衍图a的主节点与子连通衍图d的主节点之间的相似度为0,连通子图b的主节点与子连通衍图c的主节点之间的相似度为0,子连通衍图b的主节点与子连通衍图d的主节点之间的相似度为1,子连通衍图c的主节点与子连通衍图d的主节点之间的相似度为0。
50.若预设用户标识相似度为75%时,对应子连通衍图a的主节点与子连通衍图c的主节点以及子连通衍图b的主节点与子连通衍图d的主节点满足预设用户标识相似度,则子连通衍图a的主节点与子连通衍图c的主节点之间存在第二目标关联关系,子连通衍图b的主节点与子连通衍图d的主节点之间存在第二目标关联关系,因此,基于子连通衍图的第二目标关联关系生成目标子连通衍图如图5所示。
51.s42、将排除的连通子图中的根节点添加到生成的目标子连通衍图中并生成目标连通子图。
52.在根据子连通衍图中各主节点之间的用户标识特征相似度确定子连通衍图中各主节点的第二目标关联关系生成目标子连通衍图之后,将排除的连通子图中的根节点添加到生成的目标子连通衍图中并生成目标连通子图。具体的,对应图2中排除的连通子图的根节点为电话1和设备1,而电话1分别与业务1、业务2和业务3存在第一目标关联关系,设备1分别与业务3和业务4存在第一目标关联关系。通过将电话1和设备1添加到图5生成的目标子连通衍图中并生成目标连通子图,如图6所示。
53.本公开实施例提供的数据处理方法,根据子连通衍图中各主节点之间的用户标识特征相似度确定子连通衍图中各主节点的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,实现当同一个连通子图包括不同自然人的用户标识数据
时,根据子连通衍图中各主节点之间的相似度区分该连通子图中不同自然人对应的用户标识数据,能够将同一自然人对应的用户标识数据串联在一起,消除数据孤岛。
54.图9是本公开实施例提供的又一种数据处理方法,本实施例是在上述实施例的基础上,其中,步骤s40的另一种可实现方式,包括:s43、根据子连通衍图中各从节点之间的用户标识特征相似度确定子连通衍图中与从节点对应的各主节点的第二目标关联关系,并基于子连通衍图的第二目标关联关系并生成目标子连通衍图。
55.可选的,在子连通衍图的从节点的用户标识相似度满足预设用户标识相似度时,建立与从节点存在第一目标关联关系的主节点之间的第二目标关联关系。
56.根据与从节点存在第一目标关联关系的主节点之间的第二目标关联关系生成目标子连通衍图。
57.当用户通过手机号码或设备登录不同业务系统,由于登录信息中填写用户信息为非必填项,因此,会存在用户登录业务系统时任何信息均不填的先行。
58.示例性的,若在用户通过手机号码1分别登录业务系统1、业务系统2和业务系统3,用户通过设备1分别登录业务系统3和业务系统4的过程中不进行任何信息的填写操作,在用户通过手机号码1分别登录业务系统1、业务系统2和业务系统3,用户通过设备1分别登录业务系统3和业务系统4后,在业务系统1中关注某众号open,且在业务系统1中关联学号123,在业务系统2关联学号123。
59.如图10所示,与图2中连通子图对应的子连通衍图包括4个,分别为子连通衍图a,子连通衍图b,子连通衍图c和子连通衍图d,此时,子连通衍图a的第一个从节点某众号id1的用户标识为open,子连通衍图a的第二个从节点业务1学号1的用户标识为123,子连通衍图b的从节点业务2学号1的用户标识为123,此时构建的子连通衍图a和子连通衍图b对应的从节点之间的用户标识特征相似度如图11所示,子连通衍图a的从节点与子连通衍图b的从节点之间的相似度为1。
60.若预设用户标识相似度为75%时,对应子连通衍图a的从节点与子连通衍图b的从节点满足预设用户标识相似度,则子连通衍图a的主节点与子连通衍图b的主节点之间存在第二目标关联关系,因此,基于子连通衍图的第二目标关联关系生成目标子连通衍图如图13所示。
61.s44、将排除的连通子图中的根节点添加到生成的目标子连通衍图中并生成目标连通子图。
62.在根据子连通衍图中各从节点之间的用户标识特征相似度确定子连通衍图中与从节点对应的各主节点的第二目标关联关系,并基于子连通衍图的第二目标关联关系并生成目标子连通衍图之后,将排除的连通子图中的根节点添加到生成的目标子连通衍图中并生成目标连通子图。具体的,对应图2中排除的连通子图的根节点为电话1和设备1,而电话1分别与业务1、业务2和业务3存在第一目标关联关系,设备1分别与业务3和业务4存在第一目标关联关系。通过将电话1和设备1添加到图5生成的目标子连通衍图中并生成目标连通子图,如图12所示。
63.本公开实施例提供的数据处理方法,根据子连通衍图中各从节点之间的用户标识特征相似度确定子连通衍图中与从节点对应的各主节点的第二目标关联关系,并基于子连
通衍图的第二目标关联关系生成目标连通子图,实现当同一个连通子图包括不同自然人的用户标识数据时,根据子连通衍图中各主节点之间的相似度区分该连通子图中不同自然人对应的用户标识数据,能够将同一自然人对应的用户标识数据串联在一起,消除数据孤岛。
64.图14是本公开实施例提供的又一种数据处理方法的流程示意图,本实施例是在上述实施例的基础上,其中,步骤s10的一种可实现方式包括:s11、获取数据库中的用户标识数据及各个用户标识数据之间的第一关联关系。
65.示例性的,若一用户通过设备1登录业务系统3,也通过设备2登录业务系统3,即用户采用不同的设备分别登录业务系统3,因此业务系统3和设备1以及设备2之间均存在第一关联关系。
66.s12、当两个用户标识数据之间存在多个相同关联关系时,选取置信度较高的关联关系作为第一目标关联关系。
67.此时业务系统3与设备1之间的第一目标关联关系与业务系统3与设备2之间的第一目标关联关系为相同关联关系,即,都是设备与业务系统3之间的关联关系,为提高数据的置信度,通过选取置信度较高的关联关系作为第一目标关联关系,其中置信度例如可以是登录的次数、登录时间等,示例性的,若设备1登录次数较多,登录的时间较长,则设备1与业务系统3之间的第一关联关系置信度较高,因此设备1与业务系统3之间的第一关联关系为第一目标关联关系。
68.图15是本公开实施例提供的又一种数据处理方法的流程示意图,本实施例是在上述实施例的基础上,其中,步骤s40之后还包括:s50、给每一个目标连通子图分配唯一标识符。
69.通过上述步骤生成多个目标连通子图后,针对每一个目标连通子图中,当所有存在关联关系的节点连接了连接线后,原本相互之间独立的节点便形成了一个个连通子图。一个连通子图里可能存在两个或多个具有连接线的节点,也可能只存在一个节点,但每一个连通子图里的所有节点均视为同一个用户通过不同连入方式在公司不同域的业务系统中留下的行为轨迹。通过给每一个目标连通子图分配唯一标识,在后续数据查找某一个用户的用户标识数据时,通过该唯一标识即可查找到与该用户对应的所有用户标识数据。
70.图16是本公开实施例提供的又一种数据处理方法的流程示意图,本实施例是在上述实施例的基础上,其中,步骤s50之后还包括:s60、周期性的提取数据库中新增的用户标识数据及各个用户标识数据之间新增的第一目标关联关系。
71.由于公司不同域的业务系统中每天都会新增一些用户标识数据,该些用户标识数据需要定时进行维护,即需要归类到连通图中。其中,获取的周期时长可以为一小时、十二小时、一天,本技术中对周期时长的取值不加以限定。
72.s70、将新增的用户标识数据作为新的节点添加到连通图中。
73.周期获取的新增的用户标识数据中可能存在已经归类好的用户标识数据和/或第一目标关联关系,因此需要先将已经归类好的用户标识数据和/或第一目标关联关系进行排除,以得到未归类的用户标识数据和/或第一目标关联关系,然后需要将该些未归类的用户标识数据以及第一目标关联关系进行整合。具体的,先将未归类的用户标识数据作为新的节点添加到连通图中。
74.s80、依据新增的第一目标关联关系将连通图中具有第一目标关联关系的用户标识数据通过连接线相连接。
75.在将未归类的用户标识数据作为新的节点添加到连通图中后,根据未归类的第一目标关联关系,需要将连通图中存在第一目标关联关系的节点通过连接线连接,使得连通图中原本孤立的由单一节点组成的较小的连通子图合并到较大的连通子图中,或者是两个或多个较大的连通子图融合为一个更大的连通子图。
76.s90、给未分配唯一标识符的连通子图分配唯一标识符。
77.未分配的连通子图指的是由新增的用户标识数据和/或第一目标关联关系组成的连通子图。同样的,通过给新增的连通子图赋予一个稳定、唯一、持久的标识符,以标识该连通子图s100、当存在具有两个或多个唯一标识符的连通子图时,按照设定规则从两个或多个唯一标识符中选择其中一个作为最终的唯一标识符。
78.由于原本孤立的连通子图均具有对应的一个标识符,则在合并后的连通子图中会存在多个标识符,这非常不便于后续的数据整合与分析,因此只需要保留其中一个标识符。
79.具体的,从两个或多个唯一标识符中选择分配时间最早的一个作为最终的唯一标识符,或者,从两个或多个唯一标识符中随机选择一个作为最终的唯一标识符。
80.需要说明的是,以分配时间为例,由于每个标识符的分配是有先后顺序的,因此我们可以遵从先分配则优先等级高的逻辑,规定在后续的连通子图合并过程中,从诸多的标识符中选择分配时间最早的,也即优先等级最高的标识符作为最终标识符图17是本公开实施例提供的一种数据处理装置的结构示意图,如图17所示,数据处理装置包括:数据获取模块210,用于获取数据库中的用户标识数据及各个用户标识数据之间的第一目标关联关系。
81.连通图构建模块220,用于根据用户标识数据及第一目标关联关系构建连通图,连通图包括多个连通子图,每个连通子图中的每一个节点对应一个用户标识数据,每个连通子图中的每一条连接线对应一个第一目标关联关系。
82.目标连通子图生成模块230,用于针对每个连通子图,排除连通子图中的根节点,得到与连通子图对应的至少两个子连通衍图;获取至少两个子连通衍图之间的相似度;根据子连通衍图之间的相似度确定子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,目标连通子图包括至少两个子连通衍图的节点。
83.本公开实施例提供的数据的处理装置,连通图构建模块根据数据获取模块获取的数据库中的用户标识数据以及各个用户标识数据之间的第一目标关联关系构建多个连通子图,目标连通子图生成模块针对每一个连通子图,排除连通子图中的根节点,得到与连通子图对应的至少两个子连通衍图,根据至少两个子连通衍图之间的相似度确定子连通衍图的第二目标关联关系,并基于子连通衍图的第二目标关联关系生成目标连通子图,实现当同一个连通子图包括不同自然人的用户标识数据时,根据子连通衍图之间的相似度区分该连通子图中不同自然人对应的用户标识数据,能够将同一自然人对应的用户标识数据串联在一起,消除数据孤岛,而且还可扩展性强、计算成本低,有效地解决了现有技术存在的识别过程繁琐、技术实现门槛高以及可落地性差的问题,具有较高的推广应用价值。
84.本发明实施例所提供的装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
85.值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
86.图18是本公开实施例提供的一种电子设备的结构示意图,如图18所示,该电子设备包括处理器610、存储器620、输入装置630和输出装置640;计算机设备中处理器610的数量可以是一个或多个,图18中以一个处理器610为例;电子设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图18中以通过总线连接为例。
87.存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本发明实施例所提供的方法。
88.存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
89.输入装置630可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置640可包括显示屏等显示设备。
90.本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的方法。
91.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。
92.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read
‑
only memory, rom)、随机存取存储器(random access memory, ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
93.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
94.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
转载请注明原文地址:https://doc.8miu.com/read-1450219.html