基于深度学习的通信号码检测方法及系统与流程

专利2022-05-09  3


本发明涉及通信号码监测的技术领域,特别涉及一种基于深度学习的通信号码检测方法及系统。



背景技术:

随着科技时代的发展,手机越来越普及,极大的方便了人们的生活,但是随着而来的是大量的诈骗信息,诈骗分子使用各种手段,包括使用通话信息、个人信息等渠道,给很多人造成财产损失等伤害。诈骗份子的手段层出不穷,使得精确抓取监控诈骗号码变得困难,预判识别诈骗号码容易出现误判。



技术实现要素:

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于深度学习的通信号码检测方法,能够提高通信号码识别准确率。

本发明还提出一种具有上述基于深度学习的通信号码检测方法的基于深度学习的通信号码检测系统。

本发明还提出一种具有上述基于深度学习的通信号码检测方法的计算机可读存储介质。

根据本发明的第一方面实施例的基于深度学习的通信号码检测方法,包括以下步骤:获取通信号码的cdr信令数据及开卡信息,提取所述通信号码的通信特征数据;将所述通信号码及所述通信特征数据聚合预设时间,转化为流式数据,输入白名单深度学习模型的生产侧,由所述白名单深度学习模型消费所述流式数据,得到每个所述通信号码的评分,其中所述白名单深度学习模型为基于rnn的神经网络;根据所述评分将所述通信号码存入白名单或者灰名单,对所述灰名单中的所述通信号码进行监测。

根据本发明实施例的基于深度学习的通信号码检测方法,至少具有如下有益效果:通过抓取非诈骗的号码,扩充并累积更新白名单库,可以大辐度减少监测号码的数量,减少筛选的难度,从而减少识别诈骗通信号码的难度,提高通信号码识别准确率。

根据本发明的一些实施例,所述白名单深度学习模型的获取方法包括:获取通信号码的cdr信令数据及开卡信息,进行预处理并提取所述通信号码的通信特征数据,得到预处理数据;将预处理数据划分为训练集及测试集,输入所述训练集对所述白名单深度学习模型进行训练,根据训练结果调整所述白名单深度学习模型的参数并进行迭代训练;将所述测试集输入所述白名单深度学习模型,对所述白名单深度学习模型进行测试,根据测试结果对所述白名单深度学习模型进行迭代训练。

根据本发明的一些实施例,所述训练集及所述测试集中数据对应的标签中,1表示白名单数据,0表示灰名单数据。

根据本发明的一些实施例,根据所述评分将所述通信号码存入白名单或者灰名单的方法包括:所述评分大于第一预定值,则将所述通信号码存入白名单。

根据本发明的一些实施例,所述第一预定值为0.8。

根据本发明的一些实施例,所述白名单深度学习模型中采用二分类的交叉熵的损失函数。

根据本发明的一些实施例,所述通信特征数据包括:主叫离散率、主叫频率、主叫空号率、呼叫成功率、呼叫结束原因、被叫拒绝率、被叫挂机率、被叫号码连续率、呼出终止率、通话时间分布、通话时长分布、主叫来源地、办卡开卡时间间隔、一机多号特征、被叫新号率、套餐类型、流量使用特征、主叫呼叫次数、通话总次数、主叫呼叫率、用户接通次数、用户接通率、被叫号码个数、被叫号码离散率、一人多号特征、主叫呼叫公共服务情况、客户类型及号段特征。

根据本发明的一些实施例,所述预设时间为12小时或24小时。

根据本发明的第二方面实施例的基于深度学习的通信号码检测系统,包括:特征提取模块,用于获取通信号码的cdr信令数据及开卡信息,提取所述通信号码的通信特征数据;聚合模块,用于将所述通信号码及所述通信特征数据聚合预设时间,转化为流式数据;检测模块,用于接收所述流式数据,通过白名单深度学习模型所述流式数据,得到每个所述通信号码的评分,其中所述白名单深度学习模型为基于rnn的神经网络;监测模块,用于根据所述评分将所述通信号码存入白名单或者灰名单,以及,对所述灰名单中的所述通信号码进行监测。

根据本发明实施例的基于深度学习的通信号码检测系统,至少具有如下有益效果:通过抓取非诈骗的号码,扩充并累积更新白名单库,可以大辐度减少监测号码的数量,减少筛选的难度,从而减少识别诈骗通信号码的难度,提高通信号码识别准确率

根据本发明的第三方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据本发明的第一方面实施例的方法。

根据本发明实施例的计算机可读存储介质,至少具有与本发明的第一方面实施例的方法同样的有益效果。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例的方法的流程示意图;

图2为本发明实施例中提取到通信数据特征示意图;

图3为本发明实施例的白名单深度学习模型的训练测试示意图;

图4为本发明实施例的系统的模块示意框图。

附图标记:

特征提取模块100、聚合模块200、检测模块300、监测模块400。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个及两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本发明的描述中,步骤标号仅是为了描述的方便或者引述的方便所作出的标识,各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

参照图1,本发明的实施例的方法包括:获取通信号码的cdr信令数据及开卡信息,提取通信号码的通信特征数据;将通信号码及通信特征数据聚合预设时间,转化为流式数据,输入白名单深度学习模型的生产侧,由白名单深度学习模型消费流式数据,得到每个通信号码的评分,其中白名单深度学习模型为基于rnn的神经网络;根据评分将通信号码存入白名单或者灰名单,对灰名单中的通信号码进行监测。

本发明的实施例中,获取通信号码的cdr信令数据,获取包括话单及开卡注册信号,对这些数据提取其特征维度,得到一系列的通信特征数据,然后利用神经网络对这些通信特征数据进行分析,得到白名单号码。本实施例中,提取到的通信特征数据参照图2,包括:主叫离散率、主叫频率、主叫空号率、呼叫成功率、呼叫结束原因(图2中的主/被叫挂机或拒绝)、被叫拒绝率、被叫挂机率、被叫号码连续率、呼出终止率、通话时间分布(图2中的通话时段)、通话时长分布(图2中的通话时长)、主叫来源地、办卡开卡时间间隔、一机多号特征、被叫新号率(图2中的新号数)、套餐类型、流量使用特征、主叫呼叫次数、通话总次数、主叫呼叫率、用户接通次数、用户接通率、被叫号码个数、被叫号码离散率、一人多号特征(图2中的一证多号,图2中,证指身份证件)、主叫呼叫公共服务情况(如图2中的是否拨打银行客服、被叫是运营商特服号次数、被叫是其他特服号码次数及被叫是银行客服等)、客户类型(图2中包括客户类、客户类型编号、是否为亲情号用户/集团用户等)号段特征等。

本发明的实施例中,将cdr数据及开卡信息数据,通过聚合方法,以天为粒度,统计主叫离散度等信息。为充分复用上下文信息,本实施例中的白名单深度模型中采用rnn(recurrentneuralnetwork,rnn)网络结构,可针对每一个元素都执行相同的操作,每一个操作都依赖于之前的计算结果。

本实施例中,对白名单深度模型的训练方法如下。获取通信号码的cdr信令数据及开卡信息,进行预处理并提取通信号码的通信特征数据,得到预处理数据;将预处理数据划分为训练集及测试集,这些训练集已经使用标签进行标记,标签仅为0和1,其中0表示灰名单数据,即需要监测的对象,1表示白名单数据,表示是正常用户所使用的号码,不需要再进行监测。参照图3,输入训练集对白名单深度学习模型进行训练,根据训练结果调整白名单深度学习模型的参数并进行迭代训练。并将测试集输入白名单深度学习模型,对白名单深度学习模型进行测试,根据测试结果对白名单深度学习模型进行迭代训练。使用训练集不断优化模型参数,得到的模型文件,使用测试集进行测试,循环这个过程直至白名单深度学习模型符合要求为止。

本发明实施例中的白名单深度学习模型中,使用的损失函数为二分类的交叉熵:

设p(x)、q(x)分别是离散变量x的两个概率分布,其中p(x)为目标分布,p和q的交叉熵可以看做是,使用分布q(x)表示目标分布p(x)的困难程度:

对于本实施例中的信息检测,可以看做一个二分类的交叉熵计算,其中y=labels,表示真实标签,logits表示预测标签,则有如下公式:

lossij=-[yij*logpij (1-yij)log(1-pij)]

通过上述方法,输入一个通信号码及该通信号码所对应的通信特征数据,能够得到一个0-1之前的数,即为该通信号码所对应的评分。

本实施例中使用大数据的方法部署白名单深度学习模型,为了实时对号码进行监测,使用流式数据获取的方式,包括:获取通信号码对应的cdr数据及开卡信息,提取如图2中的所示的通信特征数据,聚合预设时间的数据,如12个小时或24个小时的数据,然后,转化为流式数据,输入白名单深度学习模型的生产者侧,由该模型不断消费数据,得到每个通信号码的评分。然后,根据评分将通信号码及其通信特征数据分别写到白名单或者灰名单。

不断的输入数据到模型,得到每个号码的评分,为了保证把有效的号码数据放进白名单,本发明的实施例中,将所有号码除既有白名单号码,一律放进灰名单进行特征提取和监测。灰名单是需要重点监测的号码集合,白名单已经确认为正常用户的号码,不再进行监测。对于初始数据,为了检测的全面性,假定绝大部分数据都属于灰名单,其中有很大部分数据其实属于白名单,此时灰名单中包括一部分白名单数据,本发明专利的模型就是发现灰名单中和最终的白名单重合那一部分的号码集合。这个机制的引入,能够不断提升和优化灰名单/白名单的号码集合质量,提升系统处理效率,对于不确定的数据放入灰名单区,对于确定是正常的用户,放到白名单库,不再使用系统的大量资源进行监测。本发明的实施例中,将评分大于第一预定值的通信号码放入白名单。在本实施例中,第一预定值为0.8。即若某个通信号码通过白名单深度学习模型得到的评分小于或等于0.8,则该通信号码进入灰名单,并保存其现有通信数据特征,进行监控;而若得到的评分大于0.8,则进入白名单,不再对该通信号码进行监控。

本发明实施例的系统,参照图4,包括:特征提取模块100,用于获取通信号码的cdr信令数据及开卡信息,提取通信号码的通信特征数据;聚合模块200,用于将通信号码及通信特征数据聚合预设时间,转化为流式数据;检测模块300,用于接收流式数据,通过白名单深度学习模型流式数据,得到每个通信号码的评分,其中白名单深度学习模型为基于rnn的神经网络;监测模块400,用于根据评分将通信号码存入白名单或者灰名单,以及,对灰名单中的通信号码进行监测。

尽管本文描述了具体实施方案,但是本领域中的普通技术人员将认识到,许多其它修改或另选的实施方案同样处于本公开的范围内。例如,结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外,虽然已根据本公开的实施方案描述了各种例示性具体实施和架构,但是本领域中的普通技术人员将认识到,对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。

上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解,框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样,根据一些实施方案,框图和流程图中的一些块可能无需按示出的顺序执行,或者可以无需全部执行。另外,超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。

因此,框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解,框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。

本文所述的程序模块、应用程序等可包括一个或多个软件组件,包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令,所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如,本文所述的例示性方法的一种或多种操作)被执行。

软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言,诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言,其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中,包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行,而无需首先转换成另一种形式。

软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如,预设的或固定的)或动态的(例如,在执行时创建或修改的)。

上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

转载请注明原文地址: https://doc.8miu.com/read-150372.html

最新回复(0)