本申请涉及数据处理,尤其涉及一种变量筛选方法、装置、电子设备及计算机可读介质。
背景技术:
1、目前,金融变量往往存在统计相关性,比如gdp的增长与失业率和居民收入情况相关。在经济运行过程中,广泛存在时间滞后效应,某个经济变量不仅受到同期各种因素的影响,并且也受到过去某些时间其他因素的影响,这种把过去时期的影响称为滞后变量。利用统计变量去评估方程的有效性可能会导致实际意义的变量被剔除,引入无意义的变量。当引入的变量越来越多,可能会出现巧合的统计强关系,但实际完全无关的方程,从而使得根据这些方程构建的金融预测模型计算代价巨大、计算效率低。如果可选自变量的个数较多,并且可选自变量范围的个数指数规模增加,会导致相关构建的金融预测模型的计算量巨大、准确率和效率低。
技术实现思路
1、有鉴于此,本申请实施例提供一种变量筛选方法、装置、电子设备及计算机可读介质,能够解决现有的可选自变量的个数较多,会导致相关构建的金融预测模型的计算量巨大、准确率和效率低的问题。
2、为实现上述目的,根据本申请实施例的一个方面,提供了一种变量筛选方法,包括:
3、响应于变量筛选请求,确定对应的变量扩展方式标识,获取待筛选自变量集合并确定对应的因变量;
4、基于变量扩展方式标识对待筛选自变量集合进行扩展,以生成扩展自变量集合;
5、获取自变量集合中的各个自变量对应的领域知识数据,对领域知识数据执行分词处理,以得到各个领域分词数据,基于各个领域分词数据计算扩展自变量集合中的各个自变量与对应的因变量的相关程度值;
6、基于相关程度值,确定各个自变量的权重;
7、基于权重以逐步回归的方式筛选各个自变量,以得到目标自变量,基于目标自变量构建金融预测模型。
8、可选地,基于变量扩展方式标识对待筛选自变量集合进行扩展,以生成扩展自变量集合,包括:
9、基于变量扩展方式标识,确定对应的衍生方式;
10、根据衍生方式,调用对应的衍生逻辑,以对待筛选自变量集合中的各个待筛选自变量进行相应的衍生,以得到扩展自变量集合。
11、可选地,基于各个领域分词数据计算扩展自变量集合中的各个自变量与对应的因变量的相关程度值,包括:
12、获取自变量集合中的各个自变量对应的领域知识数据;
13、计算各个领域分词数据与对应的因变量的相似度;
14、基于相似度,确定扩展自变量集合中的各个自变量与对应的因变量的相关程度值。
15、可选地,基于相关程度值,确定各个自变量的权重,包括:
16、根据相关程度值,确定偏好类型;
17、基于偏好类型,确定各个自变量的权重。
18、可选地,基于权重以逐步回归的方式筛选各个自变量,以得到目标自变量,包括:
19、响应于拟剔除各个自变量中的第一自变量,从权重中获取第一自变量对应的第一权重;
20、响应于第一权重大于预设权重阈值,终止剔除第一自变量的进程并将第一自变量确定为目标自变量。
21、可选地,在得到目标自变量之后,方法还包括:
22、基于目标自变量和对应的因变量,生成目标方程集合并输出。
23、另外,本申请还提供了一种变量筛选装置,包括:
24、获取单元,被配置成响应于变量筛选请求,确定对应的变量扩展方式标识,获取待筛选自变量集合并确定对应的因变量;
25、扩展单元,被配置成基于变量扩展方式标识对待筛选自变量集合进行扩展,以生成扩展自变量集合;
26、相关程度值计算单元,被配置成获取自变量集合中的各个自变量对应的领域知识数据,对领域知识数据执行分词处理,以得到各个领域分词数据,基于各个领域分词数据计算扩展自变量集合中的各个自变量与对应的因变量的相关程度值;
27、权重确定单元,被配置成基于相关程度值,确定各个自变量的权重;
28、变量筛选单元,被配置成基于权重以逐步回归的方式筛选各个自变量,以得到目标自变量,基于目标自变量构建金融预测模型。
29、可选地,扩展单元进一步被配置成:
30、基于变量扩展方式标识,确定对应的衍生方式;
31、根据衍生方式,调用对应的衍生逻辑,以对待筛选自变量集合中的各个待筛选自变量进行相应的衍生,以得到扩展自变量集合。
32、可选地,相关程度值计算单元进一步被配置成:
33、计算各个领域分词数据与对应的因变量的相似度;
34、基于相似度,确定扩展自变量集合中的各个自变量与对应的因变量的相关程度值。
35、可选地,权重确定单元进一步被配置成:
36、根据相关程度值,确定偏好类型;
37、基于偏好类型,确定各个自变量的权重。
38、可选地,变量筛选单元进一步被配置成:
39、响应于拟剔除各个自变量中的第一自变量,从权重中获取第一自变量对应的第一权重;
40、响应于第一权重大于预设权重阈值,终止剔除第一自变量的进程并将第一自变量确定为目标自变量。
41、可选地,变量筛选单元进一步被配置成:
42、基于目标自变量和对应的因变量,生成目标方程集合并输出。
43、另外,本申请还提供了一种变量筛选电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的变量筛选方法。
44、另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的变量筛选方法。
45、为实现上述目的,根据本申请实施例的又一个方面,提供了一种计算机程序产品。
46、本申请实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本申请实施例提供的变量筛选方法。
47、上述发明中的一个实施例具有如下优点或有益效果:本申请通过响应于变量筛选请求,确定对应的变量扩展方式标识,获取待筛选自变量集合并确定对应的因变量;基于变量扩展方式标识对待筛选自变量集合进行扩展,以生成扩展自变量集合;获取自变量集合中的各个自变量对应的领域知识数据,对领域知识数据执行分词处理,以得到各个领域分词数据,基于各个领域分词数据计算扩展自变量集合中的各个自变量与对应的因变量的相关程度值;基于相关程度值,确定各个自变量的权重;基于权重以逐步回归的方式筛选各个自变量,以得到目标自变量,基于目标自变量构建金融预测模型。从而可以提高对构建金融预测模型相关的变量进行筛选的效率和准确性,可以降低后续基于筛选得到的目标自变量构建的金融预测模型的计算量。
48、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
1.一种变量筛选方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述变量扩展方式标识对所述待筛选自变量集合进行扩展,以生成扩展自变量集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述各个领域分词数据计算所述扩展自变量集合中的各个自变量与所述对应的因变量的相关程度值,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述相关程度值,确定所述各个自变量的权重,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述权重以逐步回归的方式筛选所述各个自变量,以得到目标自变量,包括:
6.根据权利要求1所述的方法,其特征在于,在所述得到目标自变量之后,所述方法还包括:
7.一种变量筛选装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述扩展单元进一步被配置成:
9.根据权利要求7所述的装置,其特征在于,所述相关程度值计算单元进一步被配置成:
10.根据权利要求9所述的装置,其特征在于,所述权重确定单元进一步被配置成:
11.根据权利要求8所述的装置,其特征在于,所述变量筛选单元进一步被配置成:
12.根据权利要求8所述的装置,其特征在于,所述变量筛选单元进一步被配置成:
13.一种变量筛选电子设备,其特征在于,包括:
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。