本技术涉及大数据分析领域,特别是涉及一种数据分类方法、装置及电子设备。
背景技术:
1、在当代财税政策、市场情况快速变化的背景下,企业在日常经营、纳税申报的过程中,因为内部外部的多重原因,可能会面临各种各样的税务经营风险。因无法对风险进行合理的检测和判断,难以做出合理的处理,导致企业存在各种潜在的问题,不利于企业长期稳定的发展。
2、目前在观察和分析企业是否存在风险行为方面,主要是依靠人工识别异常数据,从而根据异常数据确定出企业存在的风险行为,但是由于企业内部数据非常之多,这种仅依靠人工识别的方式,可能会出现漏看、错看数据的问题,导致风险观察分析效率低。
技术实现思路
1、本技术提供了一种数据分类方法、装置及电子设备,可以解决目前仅依靠人工观察和分析企业是否存在风险行为的方法,由于企业内部数据非常多,可能会出现漏看、错看数据,导致风险观察分析效率低的问题。
2、第一方面,本技术提供了一种数据分类方法,所述方法包括:
3、对样本数据集进行特征分析,得到所述样本数据集对应的各个目标特征属性,其中,所述各个目标特征属性之间互相独立;
4、根据所述各个目标特征属性及所述各个目标特征属性对应的数据类型,生成所述各个目标特征属性对应的特征属性矩阵;
5、根据所述样本数据集对应的分类属性矩阵,计算所述特征属性矩阵对应的条件概率矩阵,其中,所述分类属性矩阵将所述样本数据集对应的所有数据类型分成了有风险和无风险两种类别;
6、根据所述条件概率矩阵对待分类数据集进行分类,得到分类结果。
7、通过上述方法,基本样本数据集的条件概率矩阵对待分类数据集进行处理,得到待分类数据集的分类结果,并基于分类结果实现风险观察分析,从而可以避免仅通过人工的方式来进行风险观察分析,导致风险观察分析的效率低的问题。
8、在一种可能的设计中,所述对样本数据集进行特征分析,得到所述样本数据集对应的各个目标特征属性,包括:
9、对样本数据集进行特征分析,得到所述样本数据集中各个数据对应的各个第一特征属性,其中,所述第一特征属性中包括多种特征属性;
10、在所述各个第一特征属性中,确定出所述样本数据集中各个数据对应的第二特征属性,其中,所述第二特征属性中包括一种特征属性;
11、在所述各个第二特征属性中,确定出所述样本数据集中各个数据对应的各个目标特征属性,其中,所述目标特征属性为第二特征属性的一部分。
12、通过上述方法,可以得到样本数据集中各个数据分别对应的目标特征属性,从而基于各个目标特征属性可以将样本数据集中各个数据区分开来。
13、在一种可能的设计中,在所述根据所述样本数据集对应的分类属性矩阵,计算所述特征属性矩阵对应的条件概率矩阵之前,还包括:
14、对所述样本数据集进行转换,得到初始属性矩阵,其中,所述初始属性矩阵中的数据形式与所述各个目标特征属性对应的数据形式相同;
15、对所述初始属性矩阵进行降维处理,得到分类属性矩阵,其中所述分类属性矩阵的维度与所述特征属性矩阵的维度相同。
16、通过上述方法,将样本数据集进行转换和降维,得到分类属性矩阵,从而可以确保来自不同数据源的样本数据组成的样本数据集能被识别和处理,提高了风险观察分析的效率。
17、在一种可能的设计中,所述根据所述条件概率矩阵对待分类数据集进行分类,得到分类结果,包括:
18、生成待分类数据集对应的初始分类特征矩阵,其中,所述初始分类特征矩阵中的数据类型与所述分类属性矩阵中的数据类型相同;
19、计算所述条件概率矩阵与所述初始分类矩阵的条件概率积,得到条件概率积矩阵;
20、将所述条件概率积矩阵每列中的最大条件概率积作为唯一结果输出,得到目标分类矩阵;
21、根据所述目标分类矩阵,得到所述待分类数据集对应的分类结果。
22、通过上述方法,可以对待分类数据集进行分类,即分为有风险和无风险两类,从而实现风险观察分析。
23、第二方面,本技术提供了一种数据分类装置,所述装置包括:
24、分析模块,用于对样本数据集进行特征分析,得到所述样本数据集对应的各个目标特征属性,其中,所述各个目标特征属性之间互相独立;
25、生成模块,用于根据所述各个目标特征属性及所述各个目标特征属性对应的数据类型,生成所述各个目标特征属性对应的特征属性矩阵;
26、计算模块,用于根据所述样本数据集对应的分类属性矩阵,计算所述特征属性矩阵对应的条件概率矩阵,其中,所述分类属性矩阵将所述样本数据集对应的所有数据类型分成了有风险和无风险两种类别;
27、分类模块,用于根据所述条件概率矩阵对待分类数据集进行分类,得到分类结果。
28、在一种可能的设计中,所述分析模块具体用于:
29、对样本数据集进行特征分析,得到所述样本数据集中各个数据对应的各个第一特征属性,其中,所述第一特征属性中包括多种特征属性;
30、在所述各个第一特征属性中,确定出所述样本数据集中各个数据对应的第二特征属性,其中,所述第二特征属性中包括一种特征属性;
31、在所述各个第二特征属性中,确定出所述样本数据集中各个数据对应的各个目标特征属性,其中,所述目标特征属性为第二特征属性的一部分。
32、在一种可能的设计中,所述装置还包括:
33、转换模块,用于对所述样本数据集进行转换,得到初始属性矩阵,其中,所述初始属性矩阵中的数据形式与所述各个目标特征属性对应的数据形式相同;
34、降维模块,用于对所述初始属性矩阵进行降维处理,得到分类属性矩阵,其中所述分类属性矩阵的维度与所述特征属性矩阵的维度相同。
35、在一种可能的设计中,所述分类模块具体用于:
36、生成待分类数据集对应的初始分类特征矩阵,其中,所述初始分类特征矩阵中的数据类型与所述分类属性矩阵中的数据类型相同;
37、计算所述条件概率矩阵与所述初始分类矩阵的条件概率积,得到条件概率积矩阵;
38、将所述条件概率积矩阵每列中的最大条件概率积作为唯一结果输出,得到目标分类矩阵;
39、根据所述目标分类矩阵,得到所述待分类数据集对应的分类结果。
40、第三方面,本技术提供了一种电子设备,包括:
41、存储器,用于存放计算机程序;
42、处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的数据分类方法步骤。
43、第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据分类方法步骤。
44、基于本技术所提供的数据分类方法,通过上述方法,基本样本数据集的条件概率矩阵对待分类数据集进行处理,得到待分类数据集的分类结果,并基于分类结果实现风险观察分析,从而可以避免仅通过人工的方式来进行风险观察分析,导致风险观察分析的效率低的问题。
45、上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果参照上述针对第一方面或者第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
1.一种数据分类方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述对样本数据集进行特征分析,得到所述样本数据集对应的各个目标特征属性,包括:
3.如权利要求1所述的方法,其特征在于,在所述根据所述样本数据集对应的分类属性矩阵,计算所述特征属性矩阵对应的条件概率矩阵之前,还包括:
4.如权利要求1所述的方法,其特征在于,所述根据所述条件概率矩阵对待分类数据集进行分类,得到分类结果,包括:
5.一种数据分类装置,其特征在于,所述装置包括:
6.如权利要求5所述的装置,其特征在于,所述分析模块具体用于:
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
8.如权利要求5所述的装置,其特征在于,所述分类模块具体用于:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法步骤。