一种基于机器学习对企业所得税风险评估的方法与流程

专利2022-05-09  61


本发明属于计算机技术领域,具体涉及一种基于机器学习对企业所得税风险评估的方法。



背景技术:

在税务系统,企业所得税的管理是税收监管中的重点也是难点。企业缴纳企业所得税是以企业最终的企业应纳税所得额为计税依据,这涉及到企业的经营收入、成本、费用等各个方面,可是说,企业所得税涉及到企业的各个方面。当前企业所得税的管理模式是:企业每个季度自行省报预缴,年底实施汇算清缴。企业每年度向税务系统报送的汇算清缴表40多张表。税务系统除了收到企业所得税的这项相关系统,还采集到其他各种涉税信息(如:登记信息、企业财务报表、企业缴纳其他税费数据、企业开具发票和外部门涉税数据等各类信息),以反映出税务系统已归集了涉税大数据信息。如何利用这些涉税大数据利用技术手段加强税收监管,特别是企业所得税的监管是税务系统需要解决的问题。

传统的数据分析手段是:基于业务人员的税收业务知识形成分析指标形式的业务需进行技术实现,数据按照不同指标按照不同维度交叉分析,在此基础上,利用统计方法进行各种比对分析。这种分析是非常有用的,能揭示一些数据的直观信息。但这种的方法有几个缺点:一是只能反映数据的某个局部的情况,不能给出数据的全貌;二是不能充分利用大数据的‘大’和‘全’的特性,揭示他们内在的关系和规律(一半是非线性的);三是分析结果对数据质量的波动非常敏感,分析结果利用效果不是很好。

随着云计算和人工智能的发展,数据科学这门综合学科体现了未来的发展前景。本发明利用一种机器学习技术对涉税数据进行特征的提取,然后利用大数据平台的并行计算能力和算法模型从这些数据中找到有价值的内容和规律,针对企业所得税的风险评估提供很有成效的支持。



技术实现要素:

为了解决上述的企业所得税税务风险指向性不强和评估效率不高的问题。本发明公开了面向税务领域的一种基于机器学习对企业所得税风险评估的方法。其中对于机器学习模型的构建方法采取税收业务专家知识和机器学习结合的方式。具体方案如下:

一种基于机器学习对企业所得税风险评估的方法,包括:

规划构建机器学习的属性集和目标集;

对所述属性集和所述目标集进行分类抽取、归集,形成数据集a并储到数据库greenplum中,将所述数据集a合并形成二维数组;

将所述二维数组输入多个决策树模型进行运算,得出数据集b;

将所述数据集b和所述二维数组输入支持向量机模型进行运算,得出数据集c,并储到数据库greenplum中;

将储到数据库greenplum的所述数据集c按照业务规则进行展示。

作为本发明实施例的一种优选技术方案,所述属性集被定义为d={x1,x2,…,xm},表示m个企业的按年归集数据,其中m根据被评估的行业所确定的纳税户数而确定,所述企业的按年归集数据可表示为xi={xi1,xi2,…,xid},其中d为企业所得税的特性,包括登记类12个、征收类4个、申报类4个、财务报表类69个、汇算清缴年度报表类1773个,故d=1862。

作为本发明实施例的一种优选技术方案,所述目标集被定义为y={y1,y2,…,yc},表示与应纳税所得额相关联的c个目标。

作为本发明实施例的一种优选技术方案,所述对所述属性集和所述目标集进行分类抽取、归集具体包括:

按照1862个属性所在数据源系统和表单,分类实施数据的抽取,抽取结果包括户、期限、类别和属性;

将所述抽取结果按照年度按户进行归集,形成数据集a并储到数据库greenplum中,其中所述数据集a为归集的1862个属性按数值型和字符型的两个数组列。

作为本发明实施例的一种优选技术方案,所述二维数组在在运算前需要进行预处理和展平处理,具体包括:

预处理:将所述数值型和字符型的两个数组列中的缺失值进行处理,然后对所述数值型数组进行规范化处理,最后以数组列的形式进行存储;

展平处理:把所述数组列展平以满足模型算法对数据格式的要求,然后自动拆分成多个子数据集满足数据库的表列数的最大限制。

作为本发明实施例的一种优选技术方案,所述多个决策树模型中通过引入样本选择、属性选择、属性划分阀值从而引入随机性,得到的决策树的集成即为极限随机树,并通过应用第三方库scikit-learn的decisiontree和svc提供的算法实现。

作为本发明实施例的一种优选技术方案,所述多个决策树模型的运算过程中还包括所述决策树模型的优化处理,具体包括:通过交叉验证、错误分析,以参数搜索的方式自动调正其各个决策树模型的超参数。

作为本发明实施例的一种优选技术方案,所述数据c被表示为两个矩阵:一个是目标的预测值输出矩阵yo,表示为yo={yc 1,yc 2,…,yc i,…,yc c},一个是目标对应输出的概率矩阵po,表示为po={pc 1,pc 2,…,pc i,…,pc c}。

作为本发明实施例的一种优选技术方案,所述将储到数据库greenplum的所述数据集c按照业务规则进行展示步骤具体包括:按照风险值{yc×pc}进行排名,以展示每户纳税人在目标集中对应目标的实际值和预测值。

与现有技术相比,本发明的有益效果是:

(1)通过把极限随机树模型和支持向量学习机模型结合起来以发挥各自的优势,从大数据中挖掘出潜在的规律和关系,用于企业所得税的风险评估,达到很好的效果;

(2)充分的运用了大数据平台的并行和分布的优势,整个过程从数据集生成到最后的模型运算输出在50分钟以内完成,除了体现系统的高效,更是在系统的实践迭代调试中发挥很好的现实作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的流程图;

图2为本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的数据分类抽取、归集构建机器学习的数据集流程图;

图3为本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的算法模型构建流程图;

图4为本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的数据集c(即风险值)的总体数据展示结果图;

图5为本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的单户钻取数据展示结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅附图1至3,其示出了本发明实施例提供的一种基于机器学习对企业所得税风险评估的方法的流程图,可以包括:

1、规划构建机器学习的属性集和目标集;

其中,所述属性集被定义为d={x1,x2,…,xm},表示m个企业的按年归集数据,其中m根据被评估的行业所确定的纳税户数而确定,所述企业的按年归集数据可表示为xi={xi1,xi2,…,xid},其中d为企业所得税的特性,包括登记类12个、征收类4个、申报类4个、财务报表类69个、汇算清缴年度报表类1773个,故d=1862。所述目标集被定义为y={y1,y2,…,yc},表示与应纳税所得额相关联的c个目标,通常将目标设置为209个与实际应纳税所得额相关联的目标,即c=209。

2、对所述属性集和所述目标集进行分类抽取、归集,形成数据集a并储到数据库greenplum中,将所述数据集a合并形成二维数组;

其中,分类抽取具体为按照1862个属性所在数据源系统和表单,分类实施数据的抽取,并将抽取结果存储在greenplum数据库中,其中抽取结果包括户、期限、类别和属性,其中数据源系统包括金税三期、发票底账、大数据平台等;

归集具体为将所述抽取结果按照年度按户进行归集,形成数据集a并储到数据库greenplum中,其中所述数据集a为归集的1862个属性按数值型和字符型的两个数组列。

3、数据的预处理和展平处理;

预处理:将所述数值型和字符型的两个数组列中的缺失值进行处理,然后对所述数值型数组进行规范化处理,最后以数组列的形式进行存储;

展平处理:把所述数组列展平以满足模型算法对数据格式的要求,然后自动拆分成多个子数据集满足数据库的表列数的最大限制。

4、将所述二维数组输入多个决策树模型进行运算,得出数据集b;

再将所述数据集b和所述二维数组输入支持向量机模型进行运算,得出数据集c,并储到数据库greenplum中;

“决策树”模型的建模思想是模拟人在现实生活中做决策的过程,因而模型非常容易理解,非常契合当前企业所得税风险判别的思路。由于‘决策树’的预测效果一般,常常需要联接其他模型一起使用,为了使得模型简的组合更加自动化,以决策树为基础,通过使用树集成的方法把一组决策树组合在一起,借助“集体智慧”解决问题,从而提升模型的预测效果。树集成的预测效果最重要的保证是森林中的决策树相互独立,因此在样本选择、属性选择、属性划分阀值等三个方面引入随机性,得到的树的集成即为“极限随机树”。

“支持向量学习机”模型的分类效果很好,适应范围很广,通过引用“核函数”,其在高纬度空间上的分类优势更加明显。基本学习器都通过应用第三方库scikit-learn的decisiontree和svc提供的算法实现。

上述多个决策树模型的运算过程中还包括所述决策树模型的优化处理,具体包括:通过交叉验证、错误分析,以参数搜索的方式自动调正其各个决策树模型的超参数。

上述数据c被表示为两个矩阵:一个是目标的预测值输出矩阵yo,表示为yo={yc 1,yc 2,…,yc i,…,yc c},一个是目标对应输出的概率矩阵po,表示为po={pc 1,pc 2,…,pc i,…,pc c}。

5、将储到数据库greenplum的所述数据集c按照业务规则进行展示;

具体是按照风险值{yc×pc}进行排名,以展示每户纳税人在目标集中对应209个目标的实际值和预测值。最终业务人员根据该指向结果进行分析、评估,并进行核实。

下面以2019年山东省的化工业所得税风险评估为例进一步阐述本发明实施例的具体方案。

10、首先根据所选择的行业和年度,从金三系统抽取税务登记的基本信息存储到greenplumn数据库中,纳税人基本信息包括以下字段(djxh,nasrmc,nsrsbh,hy_dm,ssswjg_dm),代表的含义分别为(登记序号,纳税人名称、行业代码、所属税务机关代码)。以抽取的纳税人基本信息基表按照1862个属性关联其他表单,分类实施数据的抽取,把抽取结果按户、期限、类别和属性存储在greenplum数据库中。

20、为了归集的自动化,首先把分类抽取存储在greenplum数据库的数据按照年度按户进行归集,然后把归集的1862个属性按数值类和字符类分别存储greenplum数据库对应户的两个数组列中。、

30、首先针对以上存储的字符型和数值型数组列中的缺失值进行处理,数值型缺失值按照中位数填补,字符型按照频数最大值填补,然后在进行数值型数组进行规范化处理,最后还是以数组列的形式存储。

40、把数组列展平以满足模型算法对数据格式的要求,然后自动拆分成多个子数据集满足数据库的表列数的最大限制。

50、如图3所示算法模型构建流程图。是以步骤2生成的数据集作为输入,通过pythion3实现,具体步骤如下:

41、数据集

主要是读取步骤20生成的各个子数据集表,按照纳税人识别号进行合并,生成(14121,1862)维度的数组。

42、决策树的集成

首先针对步骤20生成的二维数组,进行随机采样,采样结果分别作为各个决策树的数据集输入,然后各个决策树模型进行运算,最后对各个决策树的运算结果进行汇总加权平均,生成最终的结果。期间需要对参数自动进行调整优化。

(3)模型的结合

把步骤20的树集成模型的输出和步骤10的数据集组合作为支持向量机模型的输入,实现模型见的链接,形成最终的分风险输出。输出分成多个存储到greenplumn中,期间模型需要对参数自动进行调整优化。

步骤4.风险结果的数据展示和评估核实

针对存储在greenplumn中的模型输出数据,按照业务规则组织,便于业务人员方便的数据展示,如图4和图5所示,展示的2019年各户按照风险从大到小的整体展示,图5是针对某一户的数据钻取展示,可以从纳税申报、收入、支出、期间费用等四类几百小项进行全面展示分析;分析评估后需要实地合适结果,根据结果进行风险应对。

步骤50.结果反馈

核实后最终结果相差较大的,作为错误误差反馈给步骤30和步骤10,整体迭代调整属性集和模型参数。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于机器学习对企业所得税风险评估的方法,其特征在于,包括:

规划构建机器学习的属性集和目标集;

对所述属性集和所述目标集进行分类抽取、归集,形成数据集a并储到数据库greenplum中,将所述数据集a合并形成二维数组;

将所述二维数组输入多个决策树模型进行运算,得出数据集b;

将所述数据集b和所述二维数组输入支持向量机模型进行运算,得出数据集c,并储到数据库greenplum中;

将储到数据库greenplum的所述数据集c按照业务规则进行展示。

2.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述属性集被定义为d={x1,x2,…,xm},表示m个企业的按年归集数据,其中m根据被评估的行业所确定的纳税户数而确定,所述企业的按年归集数据可表示为xi={xi1,xi2,…,xid},其中d为企业所得税的特性,包括登记类12个、征收类4个、申报类4个、财务报表类69个、汇算清缴年度报表类1773个,故d=1862。

3.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述目标集被定义为y={y1,y2,…,yc},表示与应纳税所得额相关联的c个目标。

4.根据权利要求2所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述对所述属性集和所述目标集进行分类抽取、归集具体包括:

按照1862个属性所在数据源系统和表单,分类实施数据的抽取,抽取结果包括户、期限、类别和属性;

将所述抽取结果按照年度按户进行归集,形成数据集a并储到数据库greenplum中,其中所述数据集a为归集的1862个属性按数值型和字符型的两个数组列。

5.根据权利要求4所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述二维数组在在运算前需要进行预处理和展平处理,具体包括:

预处理:将所述数值型和字符型的两个数组列中的缺失值进行处理,然后对所述数值型数组进行规范化处理,最后以数组列的形式进行存储;

展平处理:把所述数组列展平以满足模型算法对数据格式的要求,然后自动拆分成多个子数据集满足数据库的表列数的最大限制。

6.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述多个决策树模型中通过引入样本选择、属性选择、属性划分阀值从而引入随机性,得到的决策树的集成即为极限随机树,并通过应用第三方库scikit-learn的decisiontree和svc提供的算法实现。

7.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述多个决策树模型的运算过程中还包括所述决策树模型的优化处理,具体包括:通过交叉验证、错误分析,以参数搜索的方式自动调正其各个决策树模型的超参数。

8.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述数据c被表示为两个矩阵:一个是目标的预测值输出矩阵yo,表示为yo={yc 1,yc 2,…,yc i,…,yc c},一个是目标对应输出的概率矩阵po,表示为po={pc 1,pc 2,…,pc i,…,pc c}。

9.根据权利要求8所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述将储到数据库greenplum的所述数据集c按照业务规则进行展示步骤具体包括:按照风险值{yc×pc}进行排名,以展示每户纳税人在目标集中对应目标的实际值和预测值。

技术总结
本发明属于计算机技术领域,具体涉及一种基于机器学习对企业所得税风险评估的方法。具体包括:首先规划机器学习数据集的属性集合,根据企业所得税的管理特点从属性集中选择机器学习的290个目标集合;对数据分类抽取,按照不同属性所在的系统和表单进行分类各自抽取数据;再后数据按户归集形成机器学习最终的数据集;选择决策树和支持向量机算法模型进行集成和联接,形成适应于所得税的机器学习算法模型;最终运算输出结果和结果核实反馈。本发明的有益效果是:通过两种模型结合起来以发挥各自的优势,从大数据中发现规律,用于企业所得税的风险评估,达到很好的效果;充分的运用了大数据平台的并行和分布的优势,更佳的高效。

技术研发人员:王心慧;齐艳红;徐夫田;马路军;李崇西;徐俊荣;张鹏;汤荣志;隋同兵;李思宏
受保护的技术使用者:国家税务总局山东省税务局;济南中智亚信信息技术有限公司
技术研发日:2021.05.12
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-6803.html

最新回复(0)