1.本发明属于金融预测领域,具体涉及一种趋势性变量的自动衍生方法、系统、存储介质及电子设备。
背景技术:
2.对于用户金融消费需求进行预测,是当前很多银行信用卡部门和借贷公司等对信用借贷额度发放业务场景必备的功能。基于上述场景,用户的风险和消费需求具有极强的对抗性,面临着多种多样的资金风险。而如何从众多用户中挑选出信用风险低、消费需求强的用户进行信用卡额度提升或者借贷邀请,根源在于用户金融消费需求预测模型进行训练的样本数据中包含风险特征数量和多样性不足。
3.基于趋势性的衍生变量往往能反应用户在时间维度上的特征有效性,因此作为衍生变量的特殊一类:趋势性衍生变量的自动化生成格外重要。
技术实现要素:
4.本申请实施例提供了一种趋势性变量的自动衍生方法、系统、存储介质及电子设备,以至少解决现有预测模型进行训练的样本数据中包含的风险特征数量多和特征多样性不足的问题。
5.本发明提供了一种趋势性变量的自动衍生方法,其中,包括:
6.获取衍生变量库步骤:对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;
7.趋势性衍生特征筛选步骤:对所述趋势性衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。
8.上述自动衍生方法,其中,所述获取衍生变量库步骤包括:
9.展开步骤:对单个衍生变量种子按就近时间顺序依次展开;
10.趋势性衍生处理步骤:根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。
11.上述自动衍生方法,其中,所述趋势性衍生特征筛选步骤包括:
12.特征初步筛选步骤:根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;
13.特征精确筛选步骤:根据所述初筛结果通过机器学习模型进行精确筛选获得所述趋势性衍生特征。
14.上述自动衍生方法,其中,所述趋势性衍生处理步骤中还包括循环执行获取下一阶段的所述趋势性衍生变量并更新所述趋势性衍生变量库。
15.本发明还包括一种趋势性变量的自动衍生系统,其中,应用于预测模型的趋势性变量,所述自动衍生系统包括:
16.获取衍生变量库模块:所述获取衍生变量库模块对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;
17.趋势性衍生特征筛选模块:所述趋势性衍生特征筛选模块对所述趋势性衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。
18.上述自动衍生系统,其中,所述获取衍生变量库模块包括:
19.展开单元:所述展开单元对单个衍生变量种子按就近时间顺序依次展开;
20.趋势性衍生处理单元:所述趋势性衍生处理单元根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。
21.上述自动衍生系统,其中,所述趋势性衍生特征筛选模块包括:
22.特征初步筛选单元:所述特征初步筛选单元根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;
23.特征精确筛选单元:所述特征精确筛选单元根据所述初筛结果通过机器学习模型进行精确筛选获得所述趋势性衍生特征。
24.上述自动衍生系统,其中,所述趋势性衍生处理单元循环执行获取下一阶段的所述趋势性衍生变量并更新所述趋势性衍生变量库。
25.本发明还包括一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述中任一所述的自动衍生方法。
26.本发明还包括一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述任一所述的自动衍生方法。
27.本发明属于推荐技术领域。本发明的有益效果在于:通过本发明能够有效缩减模型使用特征的空间,和提高线上检索特征的效率。
附图说明
28.此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
29.在附图中:
30.图1是本发明的自动衍生方法的流程图;
31.图2是图1中步骤s1的分步骤流程图;
32.图3是图1中步骤s2的分步骤流程图;
33.图4是本发明的自动衍生系统的结构示意图;
34.图5是根据本发明实施例的电子设备的框架图;
35.图6是单个衍生变量种子演示图;
36.图7是获得衍生算法多阶流程图;
37.图8是趋势性衍生变量的特征筛选的流程图。
具体实施方式
38.为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
39.显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
40.在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
41.除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
42.下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
43.在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
44.实施例一:
45.请参照图1,图1是趋势性变量的自动衍生方法的流程图。如图1所示,本发明的趋势性变量的自动衍生方法包括:
46.获取衍生变量库步骤s1:对所有衍生变量进行趋势性展开,得到趋势性衍生变量库。
47.请参照图2,图2是图1中步骤s1的分步骤流程图。如图2所示,所述获取衍生变量库步骤s1包括:
48.展开步骤s11:对单个衍生变量种子按就近时间顺序依次展开;
49.趋势性衍生处理步骤s12:根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。
50.具体地说,本发明提供了一种趋势性变量的自动衍生方法,应用于预测模型的趋
势性变量,如图6所示,在本实施例中以单个衍生变量种子为例,图6中td1、td2
···
tdn分别表示衍生变量1期数据、衍生变量2期数据
…
衍生变量n期数据,而趋势性衍生变量的计算需要至少两期的数据。
51.由上可知,所述自动衍生方法包括:
52.获取衍生变量库步骤:对所有衍生变量进行趋势性展开,得到趋势性衍生变量库。
53.趋势性衍生特征筛选步骤:对衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。
54.具体地说,获取衍生变量库步骤包括:
55.1.对单个衍生变量种子按就近时间顺序依次展开。
56.2.根据不同的时间周期、不同的周期间隔,并用设定特定的算法库,使用算法库内的所有算法对该种子的衍生变量进行趋势性衍生处理,得到趋势性衍生变量库。
57.举例来说,以衍生变量种子为用户消费总金额为例:
58.1)不同时间周期。可以分别按一天、一周、一月等时间周期分别进行聚合,分别得到用户一天消费总金额、用户一周消费总金额、用户一个月消费总金额。
59.2)不同周期间隔。对于用户一天消费总金额可以分别按照一天间隔、三天间隔、五天间隔等进行聚合计算。
60.3)衍生算法库。上述1、2提到的聚合算法,如常用的统计特征:求和、计次、中位数、方差、标准差、偏度、峰度等。
61.另外,本方法为衍生变量,预设了基于时间序列的熵衍生变量提取算子binned entropy、approximate entropy、sample entropy。
62.如果一个时间序列的binned entropy较大,说明这一段时间序列的取值是较为均匀的分布,如果一个时间序列的binned entropy较小,说明这一段时间序列的取值是集中在某一段上的。
63.approximate entropy越小说明某条时间序列具有很多重复的片段(repetitive pattern)或者自相似性(self
‑
similarity pattern);反之,说明某条时间序列几乎是随机出现的。
64.sample entropy越小表示该时间序列具有越强的自相似性。
65.如图7所示,可以对衍生算法输出的一阶计算进行再次重复以上过程,得到二阶、三阶的趋势性衍生变量。
66.趋势性衍生特征筛选步骤s2:对衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征
67.请参照图3,图3是图1中步骤s2的分步骤流程图。如图3所示,所述趋势性衍生特征筛选步骤s2包括:
68.特征初步筛选步骤s21:根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;
69.特征精确筛选步骤s22:根据所述初筛结果通过机器学习模型进行精确筛选获得趋势性衍生特征。
70.其中,所述趋势性衍生处理步骤中还包括循环执行获取下一阶段的趋势性衍生变量并更新所述趋势性衍生变量库。
71.具体地说,趋势性衍生特征筛选步骤,为了从大量的趋势性衍生变量中剔除相关性较大的变量,我们先进行特征初筛步骤将趋势性衍生变量的数量大大降低,具体说明如下:
72.所述特征筛选与传统特征筛选不同的是,如图8所示基于趋势性衍生变量的特征筛选需要经过两步:
73.1.特征初筛。
74.以上产生的趋势性衍生变量中包含太多稀疏或相关性较高的数据。因此,为了从大量的趋势性衍生变量中剔除相关性较大的变量,我们先进行特征初筛将趋势性衍生变量的数量大大降低,在特征初筛中,可以进行多次筛选直到满足预设筛选条件,如趋势性衍生变量特征数量、趋势性衍生变量的熵满足一定阈值等。
75.在本实施例中,特征初筛中使用的算法是pearson相关系数、卡方验证和距离相关系数中的至少一者。
76.2.基于机器学习的模型特征精筛
77.经过特征初筛后,还需要进行进一步筛检的话,可以使用机器学习模型进行筛选,在精筛中,可以多次筛选直到满足预设筛选条件,如趋势性衍生变量特征数量、模型auc达到一定阈值。本方案针对金融场景的数据特征,发现使用lightgbm这样的树模型效果更好,迭代时间更短。
78.实施例二:
79.请参照图4,图4是本发明的趋势性变量的自动衍生系统的结构示意图。
80.如图4所示本发明的一种趋势性变量的自动衍生系统,其中,包括:
81.获取衍生变量库模块:所述获取衍生变量库模块对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;
82.趋势性衍生特征筛选模块:所述趋势性衍生特征筛选模块对衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。
83.其中,所述获取衍生变量库模块包括:
84.展开单元:所述展开单元对单个衍生变量种子按就近时间顺序依次展开;
85.趋势性衍生处理单元:所述趋势性衍生处理单元根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。
86.其中,所述趋势性衍生特征筛选模块包括:
87.特征初步筛选单元:所述特征初步筛选单元根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;
88.特征精确筛选单元:所述特征精确筛选单元根据所述初筛结果通过机器学习模型进行精确筛选获得趋势性衍生特征。
89.其中,所述趋势性衍生处理单元循环执行获取下一阶段的趋势性衍生变量并更新所述趋势性衍生变量库。
90.实施例三:
91.结合图5所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
92.具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路
technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
99.该电子设备可以基于趋势性变量的自动衍生,从而实现结合图1
‑
图3描述的方法。
100.另外,结合上述实施例中趋势性变量的自动衍生方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种趋势性变量的自动衍生方法。
101.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
102.综上所述,基于本发明的有益效果在于,通过本发明可以有效缩减模型使用特征的空间,和提高线上检索特征的效率。
103.以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
技术特征:
1.一种趋势性变量的自动衍生方法,其特征在于,应用于预测模型的趋势性变量,所述自动衍生方法包括:获取衍生变量库步骤:对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;趋势性衍生特征筛选步骤:对所述趋势性衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。2.如权利要求1所述的自动衍生方法,其特征在于,所述获取衍生变量库步骤包括:展开步骤:对单个衍生变量种子按就近时间顺序依次展开;趋势性衍生处理步骤:根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。3.如权利要求1所述的自动衍生方法,其特征在于,所述趋势性衍生特征筛选步骤包括:特征初步筛选步骤:根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;特征精确筛选步骤:根据所述初筛结果通过机器学习模型进行精确筛选获得所述趋势性衍生特征。4.如权利要求2所述的自动衍生方法,其特征在于,所述趋势性衍生处理步骤中还包括循环执行获取下一阶段的所述趋势性衍生变量并更新所述趋势性衍生变量库。5.一种趋势性变量的自动衍生系统,其特征在于,应用于预测模型的趋势性变量,所述自动衍生系统包括:获取衍生变量库模块:所述获取衍生变量库模块对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;趋势性衍生特征筛选模块:所述趋势性衍生特征筛选模块对所述趋势性衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。6.如权利要求5所述的自动衍生系统,其特征在于,所述获取衍生变量库模块包括:展开单元:所述展开单元对单个衍生变量种子按就近时间顺序依次展开;趋势性衍生处理单元:所述趋势性衍生处理单元根据预设规则,使用算法库内的算法对所述衍生变量种子的衍生变量进行趋势性衍生处理获得所述趋势性衍生变量库。7.如权利要求5所述的自动衍生系统,其特征在于,所述趋势性衍生特征筛选模块包括:特征初步筛选单元:所述特征初步筛选单元根据所述趋势性衍生变量库通过pearson相关系数算法或卡方验证算法或距离相关系数算法进行初步筛选获得初筛结果;特征精确筛选单元:所述特征精确筛选单元根据所述初筛结果通过机器学习模型进行精确筛选获得所述趋势性衍生特征。8.如权利要求6所述的自动衍生系统,其特征在于,所述趋势性衍生处理单元循环执行获取下一阶段的所述趋势性衍生变量并更新所述趋势性衍生变量库。9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的自动衍生方法。10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现
如权利要求1至4中任一项所述的自动衍生方法。
技术总结
本申请公开了一种趋势性变量的自动衍生方法、系统、存储介质及电子设备,方法包括:获取衍生变量库步骤:对所有衍生变量进行趋势性展开,得到趋势性衍生变量库;趋势性衍生特征筛选步骤:对衍生变量库内的特征进行筛选,以提取有效的趋势性衍生特征。本发明有效缩减模型使用特征的空间和提高线上检索的效率。型使用特征的空间和提高线上检索的效率。型使用特征的空间和提高线上检索的效率。
技术研发人员:薛睿蓉
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2021.04.06
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-14861.html