本发明涉及互联网,具体而言,涉及一种聚类迭代方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、随着互联网业务的迅速发展,各个平台推出的新玩法与运营活动极大地丰富了人们的社交方式,然而这也同时给背后的灰色产业链创造了机会,其通过批量注册、恶意领券、代下单等操作实现获利,不仅会给平台造成巨大的损失,还会影响正常用户的体验。
2、因此,各个平台都需要进行风险防控,以打击灰色产业链,其中,风险防控的重要一环是从海量用户中识别出操控灰色产业链的异常用户团体。现有技术中,通常使用聚类的方式进行团体识别,再确定出异常团体,例如采用dbscan(density-based spatialclustering of applications with noise,基于密度的带噪声空间聚类应用)算法。但是在采用聚类算法进行团体识别过程中,如何保证团体识别结果的准确性是需要考虑的问题。
技术实现思路
1、本发明的目的在于提供一种聚类迭代方法、装置、电子设备及计算机可读存储介质,以改善现有技术存在的问题。
2、本发明的实施例可以这样实现:
3、第一方面,本发明提供一种聚类迭代方法,所述聚类迭代方法包括:
4、获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
5、将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
6、针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
7、针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
8、可选的,所述行为日志数据包括所述新用户的注册端在对应的设定观测期间内产生的多种行为事件;
9、所述根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量的步骤,包括:
10、利用词嵌入模型,获得所述用户组中每个新用户的注册端所产生的每种行为事件的事件向量;
11、针对所述用户组的每个新用户,基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量。
12、可选的,所述基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量的步骤,包括:
13、利用tf-idf算法,计算所述新用户的注册端所产生的每种行为事件的权重系数;
14、基于所述新用户的注册端所产生的每种行为事件的权重系数,对所述新用户所对应的每种行为事件的事件向量进行加权平均处理,得到所述新用户的行为特征向量。
15、可选的,所述利用tf-idf算法,计算所述新用户的注册端所产生的每种行为事件的权重系数的步骤,包括:
16、针对所述新用户的注册端所产生的任一目标行为事件,基于所述新用户所属用户组对应的所有行为事件,统计所述目标行为事件在所述新用户所在用户组的出现频次以及所述用户组中涉及所述目标行为事件的关联人数;
17、基于所述出现频次、所述用户组的新用户总数以及所述关联人数,利用所述tf-idf算法计算所述目标行为事件的权重系数;
18、遍历所述新用户的注册端所产生的每种行为事件,得到所述新用户的注册端所产生的每种行为事件的权重系数。
19、可选的,所述权重系数的计算公式为:
20、
21、其中,代表用户组d中,目标行为事件eventi的权重系数;代表用户组d中,目标行为事件eventi的出现频次;num(all,d)代表用户组d的新用户总数;代表用户组d中,涉及目标行为事件eventi的关联人数。
22、可选的,所述对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果的步骤,包括:
23、将dbscan算法的邻域半径参数设置为预设下限阈值,并按照所述邻域半径参数和预设最小成员数,对所述用户组对应的所有行为特征向量进行dbscan聚类,得到聚类结果;
24、判断所述聚类结果是否满足预设的用户聚集特性条件;
25、若是,则基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果;
26、若否,则将所述邻域半径参数增加设定步长后返回执行所述按照所述邻域半径参数和预设最小成员数,对所有新用户的行为特征向量进行dbscan聚类,得到聚类结果的步骤,直至所述聚类结果满足所述用户聚集特性条件,基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
27、可选的,所述聚类结果包括多个聚类集合以及噪声集合;
28、所述判断所述聚类结果是否满足预设的用户聚集特性条件的步骤,包括:
29、统计每个所述聚类集合的元素量以及所述噪声集合的元素量;
30、从所有聚类集合中找出所述元素量最大的最大聚类集合;
31、判断所述最大聚类集合的元素量是否大于所述噪声集合的元素量;
32、若是,则判定所述聚类结果满足所述用户聚集特性条件;
33、若否,则判定所述聚类结果不满足所述用户聚集特性条件。
34、第二方面,本发明提供一种聚类迭代装置,所述聚类迭代装置包括:
35、数据获取模块,用于获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
36、用户分组模块,用于将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
37、向量转化模块,用于针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
38、聚类迭代模块,用于针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
39、第三方面,本发明提供一种电子设备,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现如前述第一方面所述的聚类迭代方法。
40、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述的聚类迭代方法。
41、与现有技术相比,本发明实施例提供了一种聚类迭代方法、装置、电子设备及计算机可读存储介质,该方法首先获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;接着将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;然后针对每个用户组:根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量,再对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。由于不同注册情形下,正常用户的行为是存在共性的,所以本发明先分组获得不同的注册情形下的用户组的所有行为特征向量,进而在每个用户组的识别过程中通过多次聚类迭代来找出对应注册情形下的最优团体识别结果,保证了团体识别的准确性,从而有助于保证后续异常团体的识别准确性。
1.一种聚类迭代方法,其特征在于,所述聚类迭代方法包括:
2.根据权利要求1所述的聚类迭代方法,其特征在于,所述行为日志数据包括所述新用户的注册端在对应的设定观测期间内产生的多种行为事件;
3.根据权利要求2所述的聚类迭代方法,其特征在于,所述基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量的步骤,包括:
4.根据权利要求3所述的聚类迭代方法,其特征在于,所述利用tf-idf算法,计算所述新用户的注册端所产生的每种行为事件的权重系数的步骤,包括:
5.根据权利要求4所述的聚类迭代方法,其特征在于,所述权重系数的计算公式为:
6.根据权利要求1所述的聚类迭代方法,其特征在于,所述对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果的步骤,包括:
7.根据权利要求6所述的聚类迭代方法,其特征在于,所述聚类结果包括多个聚类集合以及噪声集合;
8.一种聚类迭代装置,其特征在于,所述聚类迭代装置包括:
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现如权利要求1-7中任一项所述的聚类迭代方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的聚类迭代方法。
