信息聚合方法、装置、电子设备、存储介质和程序产品与流程

专利2022-05-09  64



1.本公开涉及数据处理技术领域,尤其涉及大数据技术领域。


背景技术:

2.目前对于信息的聚合,主要采用的技术手段是全量聚合,即每次执行聚合操作过程中都是对数据集中的所有数据进行分析,以实现最终的聚合。


技术实现要素:

3.本公开提供了一种信息聚合方法、装置、电子设备、存储介质和程序产品。
4.根据本公开的一方面,提供了一种信息聚合方法,包括:
5.从数据集中识别活跃数据和非活跃数据;
6.建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;
7.获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;
8.基于所述第一关联关系和所述第二关联关系,执行聚合操作。
9.根据本公开的另一方面,提供了一种信息聚合装置,包括:
10.识别模块,用于从数据集中识别活跃数据和非活跃数据;
11.建立模块,用于建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;
12.获取模块,用于获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;
13.聚合模块,用于基于所述第一关联关系和所述第二关联关系,执行聚合操作。
14.根据本公开的另一方面,提供了一种电子设备,包括:
15.至少一个处理器;以及
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开提供的信息聚合方法。
18.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开提供的信息聚合方法。
19.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的信息聚合方法。
20.本公开中,由于识别数据集的活跃数据和非活跃数据,对于非活跃数据使用预先存储的第二关联关系执行聚合操作,从而可以提高聚合效率。
21.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.附图用于更好地理解本方案,不构成对本公开的限定。其中:
23.图1是本公开提供的一种信息聚合方法的流程图;
24.图2是本公开提供的另一种信息聚合方法的流程图;
25.图3是本公开提供的一种信息聚合的示意图;
26.图4是本公开提供的一种信息聚合的示意图;
27.图5是本公开提供的一种信息聚合装置的结构图;
28.图6是本公开提供的另一信息聚合装置的结构图;
29.图7是本公开提供的另一信息聚合装置的结构图;
30.图8是用来实现本公开实施例的信息聚合方法的电子设备的框图。
具体实施方式
31.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
32.请参见图1,图1是本公开提供的一种字段识别方法的流程图,如图1所示,包括以下步骤:
33.步骤s101、从数据集中识别活跃数据和非活跃数据。
34.其中,上述数据集可以是某一时间周期的日志数据。例如:一个月、半年等累积的日志数据,且上述数据集是及时更新的,例如:以天级进行更新。需要说明的是,本公开中并不限定数据集为日志数据,例如:还可以是订单数据。
35.上述活跃数据可以指上述数据集中在预设时间范围活跃的数据,如在预设时间范围内携带标识信息的数据,这些数据也可以理解为活跃标识(例如:在预设时间范围内出现的标识)对应的数据;上述非活跃数据可以是在预设时间范围内不活跃的数据,这些数据也可以理解为非活跃标识(例如:在预设时间范围内未出现的标识)对应的数据。上述预设时间范围可以是根据实际需求设置的,如一个月或者半个月。
36.本公开中数据集中的数据为包含有标识信息的数据,例如:包含有设备标识的数据,包含有账号标识的数据,包含有设备标识和账号标识的数据。其中,设备标识可以包括:设备的国际移动设备识别码(international mobile equipment identity,imei)、设备的媒体接入控制(medium access control,mac)标识、设备的广告标识符(identifier for advertising,idfa)、设备的匿名设备标识符(open anonymous device identifier,oaid)、设备的cookie等设备id;上述账号标识可以包括:手机号、用户标识(userid)、微博软件账号、聊天软件账号、购物软件账号等账号id。本公开的技术方案中,所涉及的数据获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
37.步骤s102、建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备
标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项。
38.上述建立所述活跃数据的第一关联关系可以是识别活跃数据中的设备标识与账号标识之间的关联关系,或者识别账户标识与账户标识之间的关联关系,例如:某一个或者多个账号在同一设备上登录,从而建立该设备的设备标识与这些账号的账号标识之间的第一关联关系;又例如:某一些账号标识出现在同一条日志数据中,从而将这些账号标识建立第一关联关系。
39.上述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项可以理解为:第一关联关系可以表示设备标识与账号标识的关联关系,或者,第一关联关系可以表示账号标识与账号标识的关联关系,或者,第一关联关系可以表示设备标识与账号标识的关联关系,以及表示账号标识与账号标识的关联关系。
40.需要说明的是,上述活跃数据中可以包括多条第一关联关系,不同的第一关联关系对应不同的设备标识,或者对应不同的账号标识。
41.步骤s103、获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项。
42.上述预先存储的所述非活跃数据的第二关联关系可以是,预先为上述非活跃数据建立的第二关联关系,例如:获取在两个月或者一个月前或者半个月前为上述非活跃数据建立的第二关联关系,或者对时间不作限定,上述预先存储的非活跃数据的第二关联关系可以是在上一次或者上n次执行聚合使用的非活跃数据的第二关联关系。
43.本公开中由于对上述非活跃数据直接使用预先存储的第二关联关系,从而不需要在每个聚合过程中建立非活跃数据的第二关联关系,进而可以提高聚合效率。
44.需要说明的是,上述非活跃数据中可以包括多条第二关联关系,不同第二关联关系对应不同的设备标识,或者对应不同的账号标识。
45.步骤s104、基于所述第一关联关系和所述第二关联关系,执行聚合操作。
46.上述基于所述第一关联关系和所述第二关联关系,执行聚合操作可以是,将匹配同一对象的设备标识和账号标识聚合在一起,形成对应的聚合集合。其中,上述对象可以是根据实际需求设定的,例如:在一些场景中上述对象可以是人、车辆、商家、学校或者单位等对象。
47.本公开中,由于识别数据集的活跃数据和非活跃数据,对于非活跃数据使用预先存储的第二关联关系执行聚合操作,从而可以提高聚合效率。
48.请参见图2,图2是本公开提供的另一种字段识别方法的流程图,如图2所示,包括以下步骤:
49.步骤s201、从数据集中识别活跃数据和非活跃数据。
50.步骤s202、建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项。
51.在一些实施方式中,上述建立所述活跃数据的第一关联关系可以是建立设备标识与账号标识之间的连通图,或者建立账号标识与账号标识之间的连通图,或者直接建立设备标识与账号标识之间的映射关系,或者直接建立账号标识与账号标识之间的映射关系。
52.步骤s203、获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项。
53.步骤s204、基于所述第一关联关系和所述第二关联关系,执行聚合操作。
54.作为一种可选的实施方式,在所述第一关联关系表示设备标识与账号标识的关联关系,且所述第二关联关系表示设备标识与账号标识的关联关系的情况下,所述基于所述第一关联关系和所述第二关联关系,执行聚合操作,包括:
55.基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系;
56.基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
57.将所述第一聚合关系和所述第二聚合关系进行合并。
58.上述基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系可以是,根据上述活跃数据中的全部或者部分第一关联关系,识别匹配同一对象的设备标识和账号标识,并将其聚合在一起,以形成各对象对应的第一聚合关系,每个对象的第一聚合关系用于表示该对象对应的设备标识和账号标识。同理,可以得到上述第二聚合关系。
59.需要说明的是,本公开中每个第一聚合关系对应一个对象,因此,对于上述活跃数据和非活跃数据可以存在多个第一聚合关系和多个第二聚合关系。
60.上述将得到的第一聚合关系和得到的第二聚合关系进行合并可以是,将上述第一聚合关系和第二聚合关系中包括同一对象聚合关系进行合并,从而得到最终的聚合结果。
61.该实施方式中,由于分别得到活跃数据和非活跃数据的聚合关系,再进行合并,从而可以提高聚合的准确性。
62.在一些实施方式中,本公开并不限定通过上述分别得到活跃数据和非活跃数据的聚合关系的方式进行聚合,例如:在一些场景或者实施方式中,也可以直接依据第一关联关系和第二关联关系,得到最终的聚合结合,即不分开获取活跃数据和非活跃数据的聚合关系。
63.可选的,所述数据集包括多条数据,匹配同一对象的设备标识和账号标识是基于如下至少一项确定的:
64.同一条数据包括的多个设备标识匹配同一对象;
65.同一条数据包括的多个设备标识,以及所述多个设备标识关联的账号标识匹配同一对象;
66.同一条数据包括的多个账号标识匹配同一对象;
67.同一条数据包括的多个账号标识,以及所述多个账号标识关联的设备标识匹配同一对象。
68.其中,上述同一条数据可以是同一条日志数据。
69.该实施方式中,可以实现将同一条数据中包括的标识匹配到同一对象,这样可以提高聚合的准确性。因为,在实践中发现出现在同一条数据中的标识往往是同一对象的标识。
70.需要说明的是,本公开中并不限定通过上述方式来确定匹配同一对象的标识,例如:在一些场景或者实施方式中也可以通过设备标识和账号标识对应的数据的行为、位置等数据确定匹配同一对象的标识。
71.可选的,所述基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系,包括:
72.在所述活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第三关联关系;
73.在所述活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第四关联关系;
74.在建立有所述第三关联关系和所述第四关联关系中的至少一项的情况下,基于所述第三关联关系和所述第四关联关系中的至少一项和所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系。
75.其中,上述建立同一账号关联多个设备标识的第三关联关系可以是,将多个关联同一账号标识的设备标识进行关联,例如:将同一个人可标识信息(personally identifiable information,pii)关联的多个设备标识进行关联,得到上述第三关联关系,其中,pii可以是预先选定的某一账号标识。
76.上述建立所述多个设备标识的第四关联关系可以是,将多个设备行为、位置匹配的设备标识进行关联,得到第四关联关系。
77.上述基于所述第三关联关系和所述第四关联关系中的至少一项和所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系可以是,根据第三关联关系确定多个关联的设备标识,再根据对应的第一关联关系确定这些设备标识关联的账号标识,进而确定这些设备标识和账号标识是匹配同一对象,以将其进行聚合。
78.该实施方式中,由于基于上述第三关联关系和所述第四关联关系中的至少一项和第一关联关系,将活跃数据中匹配同一对象的设备标识和账号标识进行聚合,从而可以提高第一聚合关联的准确性。
79.可选的,所述基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系,包括:
80.在所述非活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第五关联关系;在所述非活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第六关联关系;在建立有所述第五关联关系和所述第六关联关系中的至少一项的情况下,基于所述第五关联关系和所述第六关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
81.或者
82.在预先存储有所述非活跃数据的第七关联关系和第八关联关系中的至少一项的情况下,基于所述第七关联关系和第八关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
83.其中,所述第七关联关系为所述非活跃数据中同一账号关联多个设备标识的关联
关系,所述第八关联关系为所述非活跃数据中多个设备标识相匹配的关联关系。
84.其中,上述基于所述第五关联关系和所述第六关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系可以参见上述第三关联关系和第四关联关系的实施方式的相应说明,此处不作赘述,且同样可以提高第二聚合关系的准确性。
85.另外,该实施方式中,由于可以使用预先存储的非活跃数据的第七关联关系和第八关联关系,这样可以进一步提高聚合效率。
86.作为一种可选的实施方式,如图2所示,上述方法还包括:
87.步骤s205、针对聚合集合确定目标对象标识,所述聚合集合用于表示匹配同一对象的设备标识和账号标识,所述目标对象标识为所述聚合集合中满足预设条件的账号标识或者设备标识。
88.上述目标对象标识可以是用于表示对象的标识,这样由于每个聚合集合表示匹配同一对象的设备标识和账号标识,从而通过该目标对象标识可以表示该聚合集合。
89.上述预设条件可以是预先根据实际需求进行设定的,例如:在一些场景或者实施方式中,可以选择聚合集合中在上述数据集出现总次数最多的账号标识或者设备标识,或者在另一些场景或者实施方式中,可以选择聚合集合中在上述数据集中最近一周、一个月内出现次数最多的账号标识或者设备标识;或者,上述满足预设条件的账号标识或者设备标识还可以是优先级最高的账号标识或者设备标识,或者,上述满足预设条件的账号标识或者设备标识还可以是先选择最稳定的账号标识,在没有最稳定的账号标识的情况下,再选择最稳定的设备标识,其中,这里稳定可以是标识在上述数据集出现的次数稳定,如出现次数频繁。
90.该实施方式中,由于确定聚合集合的目标对象标识,通过目标对象标识可以快速、准确地定位到各聚合集合,从而提高聚合效果。
91.下面通过图3和图4对本公开提高的信息聚合方法进行举例说明:
92.在一个实施例中,如图3所示可以包括以下步骤:
93.步骤s301、基础数据累积;
94.这里基础数据可以是上述实施例中的数据集,且可以是通过小时级累积、天线累积和全量级累积得到的基础数据。
95.在一些场景或者实施方式中基础数据可以包括78%的非活跃数据和22%的活跃数据,需要说明的是,这里78%和22%仅是一个简单的举例。
96.步骤s302、对于活跃数据采用轻量级聚合。
97.其中,轻量级聚合包括设备聚合相关任务和聚合到对象相关任务,其中,设备聚合相关任务是指设备层面的聚合,即建立设备标识与账号标识之间的关联关系,上述聚合到对象相关任务是指将设备标识和账号标识聚合到对应的对象。
98.步骤s303、对于非活跃数据采用旧数据聚合。
99.其中,这里旧数据可以是指预先存储的设备标识与账号标识(例如:pii)的关联关系,且聚合可以是使用旧数据生成目标对象标识,具体过程可以参见上述实施例中的目标对象标识的确定,此处不作赘述。另外,本公开中目标对象标识也可以定义为udwid或者其他名称。
100.步骤s304、目标对象标识合并。
101.该步骤可以将活跃数据的目标对象标识和非活跃数据的目标对象标识进行合并,之后并灌库,即将合并后的数据存储至数据库。
102.在另一个实施例中,如图4所示可以包括以下步骤:
103.步骤s401、获取小时级任务。
104.步骤s402、天级累积数据。
105.步骤s403、全量累积和反作弊。
106.其中,全量累积是指获取活跃数据和非活跃数据,如图4所示,包括80%的非活跃数据和20%的活跃数据,上述反作弊可以是指识别错误数据。
107.步骤s404、轻量级聚合。
108.该步骤包括以下过程:
109.连通图计算、设备级反作弊、设备聚合、pii关联和聚合到对象连通图计算。
110.其中,连通图计算可以是计算活跃数据的设备标识与账号标识之间的关联关系,设备级反作弊可以是在设备聚合层面识别错误数据,上述设备聚合可以是将同一设备关联的账号标识进行聚合,上述pii关联可以是将同一账号标识关联的多个设备进行关联,上述聚合到对象连通图计算可以是将匹配同一对象的设备标识和账号标识进行聚合。
111.步骤s405、旧数据聚合。
112.该步骤可以是获取预先存储的设备标识与账号标识(例如:pii)的关联关系。
113.步骤s406、聚合到对象。
114.该步骤可以将活跃数据和非活跃数据中的设备标识和账号标识中匹配同一对象的设备标识和账号标识进行聚合。
115.步骤s407、灌库。
116.请参见图5,图5是本公开提供的一种信息聚合装置,如图5所示,信息聚合装置500包括:
117.识别模块501,用于从数据集中识别活跃数据和非活跃数据;
118.建立模块502,用于建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;
119.获取模块503,用于获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;
120.聚合模块504,用于基于所述第一关联关系和所述第二关联关系,执行聚合操作。
121.可选的,在所述第一关联关系表示设备标识与账号标识的关联关系,且所述第二关联关系表示设备标识与账号标识的关联关系的情况下,如图6所示,所述聚合模块504包括:
122.第一聚合单元5041,用于基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系;
123.第二聚合单元5042,用于基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
124.合并单元5043,用于将所述第一聚合关系和所述第二聚合关系进行合并。
125.可选的,所述数据集包括多条数据,匹配同一对象的设备标识和账号标识是基于如下至少一项确定的:
126.同一条数据包括的多个设备标识匹配同一对象;
127.同一条数据包括的多个设备标识,以及所述多个设备标识关联的账号标识匹配同一对象;
128.同一条数据包括的多个账号标识匹配同一对象;
129.同一条数据包括的多个账号标识,以及所述多个账号标识关联的设备标识匹配同一对象。
130.可选的,所述第一聚合单元5041用于:
131.在所述活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第三关联关系;
132.在所述活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第四关联关系;
133.在建立有所述第三关联关系和所述第四关联关系中的至少一项的情况下,基于所述第三关联关系和所述第四关联关系中的至少一项和所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系。
134.可选的,所述第二聚合单元5042用于,包括:
135.在所述非活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第五关联关系;在所述非活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第六关联关系;在建立有所述第五关联关系和所述第六关联关系中的至少一项的情况下,基于所述第五关联关系和所述第六关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
136.或者
137.在预先存储有所述非活跃数据的第七关联关系和第八关联关系中的至少一项的情况下,基于所述第七关联关系和第八关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;
138.其中,所述第七关联关系为所述非活跃数据中同一账号关联多个设备标识的关联关系,所述第八关联关系为所述非活跃数据中多个设备标识相匹配的关联关系。
139.可选的,如图7所示,所述装置还包括:
140.确定模块505,用于针对聚合集合确定目标对象标识,所述聚合集合用于表示匹配同一对象的设备标识和账号标识,所述目标对象标识为所述聚合集合中满足预设条件的账号标识或者设备标识。
141.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
142.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算
装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
143.如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
144.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
145.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如信息聚合方法。例如,在一些实施例中,信息聚合方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的信息聚合方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息聚合方法。
146.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
147.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
148.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
149.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
150.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
151.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。
152.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
153.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:
1.一种信息聚合方法,包括:从数据集中识别活跃数据和非活跃数据;建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;基于所述第一关联关系和所述第二关联关系,执行聚合操作。2.根据权利要求1所述的方法,其中,在所述第一关联关系表示设备标识与账号标识的关联关系,且所述第二关联关系表示设备标识与账号标识的关联关系的情况下,所述基于所述第一关联关系和所述第二关联关系,执行聚合操作,包括:基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系;基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;将所述第一聚合关系和所述第二聚合关系进行合并。3.根据权利要求2所述的方法,其中,所述数据集包括多条数据,匹配同一对象的设备标识和账号标识是基于如下至少一项确定的:同一条数据包括的多个设备标识匹配同一对象;同一条数据包括的多个设备标识,以及所述多个设备标识关联的账号标识匹配同一对象;同一条数据包括的多个账号标识匹配同一对象;同一条数据包括的多个账号标识,以及所述多个账号标识关联的设备标识匹配同一对象。4.根据权利要求2或3所述的方法,其中,所述基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系,包括:在所述活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第三关联关系;在所述活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第四关联关系;在建立有所述第三关联关系和所述第四关联关系中的至少一项的情况下,基于所述第三关联关系和所述第四关联关系中的至少一项和所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系。5.根据权利要求2或3所述的方法,其中,所述基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系,包括:在所述非活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第五关联关系;在所述非活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第六关联关系;在建立有所述第五关联关系和所述第六关联关系中的至少一项的情况下,基于所述第五关联关系和所述第六关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,
得到第二聚合关系;或者在预先存储有所述非活跃数据的第七关联关系和第八关联关系中的至少一项的情况下,基于所述第七关联关系和第八关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;其中,所述第七关联关系为所述非活跃数据中同一账号关联多个设备标识的关联关系,所述第八关联关系为所述非活跃数据中多个设备标识相匹配的关联关系。6.根据权利要求1至3中任一项所述的方法,所述方法还包括:针对聚合集合确定目标对象标识,所述聚合集合用于表示匹配同一对象的设备标识和账号标识,所述目标对象标识为所述聚合集合中满足预设条件的账号标识或者设备标识。7.一种信息聚合装置,包括:识别模块,用于从数据集中识别活跃数据和非活跃数据;建立模块,用于建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;获取模块,用于获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;聚合模块,用于基于所述第一关联关系和所述第二关联关系,执行聚合操作。8.根据权利要求7所述的装置,其中,在所述第一关联关系表示设备标识与账号标识的关联关系,且所述第二关联关系表示设备标识与账号标识的关联关系的情况下,所述聚合模块包括:第一聚合单元,用于基于所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系;第二聚合单元,用于基于所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;合并单元,用于将所述第一聚合关系和所述第二聚合关系进行合并。9.根据权利要求8所述的装置,其中,所述数据集包括多条数据,匹配同一对象的设备标识和账号标识是基于如下至少一项确定的:同一条数据包括的多个设备标识匹配同一对象;同一条数据包括的多个设备标识,以及所述多个设备标识关联的账号标识匹配同一对象;同一条数据包括的多个账号标识匹配同一对象;同一条数据包括的多个账号标识,以及所述多个账号标识关联的设备标识匹配同一对象。10.根据权利要求8或9所述的装置,其中,所述第一聚合单元用于:在所述活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第三关联关系;在所述活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第四关联关系;
在建立有所述第三关联关系和所述第四关联关系中的至少一项的情况下,基于所述第三关联关系和所述第四关联关系中的至少一项和所述第一关联关系,将所述活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第一聚合关系。11.根据权利要求8或9所述的装置,其中,所述第二聚合单元用于,包括:在所述非活跃数据中包括同一账号标识关联多个设备标识的情况下,建立同一账号关联多个设备标识的第五关联关系;在所述非活跃数据中包括多个设备标识相匹配的情况下,建立所述多个设备标识的第六关联关系;在建立有所述第五关联关系和所述第六关联关系中的至少一项的情况下,基于所述第五关联关系和所述第六关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;或者在预先存储有所述非活跃数据的第七关联关系和第八关联关系中的至少一项的情况下,基于所述第七关联关系和第八关联关系中的至少一项和所述第二关联关系,将所述非活跃数据中匹配同一对象的设备标识和账号标识进行聚合,得到第二聚合关系;其中,所述第七关联关系为所述非活跃数据中同一账号关联多个设备标识的关联关系,所述第八关联关系为所述非活跃数据中多个设备标识相匹配的关联关系。12.根据权利要求7至9中任一项所述的装置,所述装置还包括:确定模块,用于针对聚合集合确定目标对象标识,所述聚合集合用于表示匹配同一对象的设备标识和账号标识,所述目标对象标识为所述聚合集合中满足预设条件的账号标识或者设备标识。13.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1

6中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1

6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1

6中任一项所述的方法。
技术总结
本公开公开了一种信息聚合方法、装置、电子设备、存储介质和程序产品,涉及数据处理技术领域,尤其涉及大数据技术领域。具体实现方案为:从数据集中识别活跃数据和非活跃数据;建立所述活跃数据的第一关联关系,所述第一关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识的关联关系中的至少一项;获取预先存储的所述非活跃数据的第二关联关系,所述第二关联关系用于表示:设备标识与账号标识的关联关系,以及账号标识与账号标识之间的关联关系中的至少一项;基于所述第一关联关系和所述第二关联关系,执行聚合操作。本公开可以提高聚合效率。本公开可以提高聚合效率。本公开可以提高聚合效率。


技术研发人员:惠盼 焦健
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.03.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-13203.html

最新回复(0)