本发明属于计算机机器学习,具体涉及一种组织机构数据自动匹配工具构建方法及系统。
背景技术:
1、主数据是企业最重要的数据资产,是各个系统间一致并共享的数据,是信息系统建设和大数据分析的基础,是企业数字化转型的基石。组织机构数据是企业最重要的数据资产,是主数据中的“黄金数据”,代表着企业最基础的组织架构,是各个业务系统间一致并共享的数据。当前国家电网公司新一代主数据管理平台已纳管企业级组织机构数据,由于公司内部各业务系统建设时期不同,组织机构数据存在管理标准不一致、数据标准不完善等问题,各系统之间存在数据壁垒,难以准确高效开展跨业务系统的数据应用和多维数据分析。
2、现有组织机构匹配方法是人工将业务组织与行政区划建立映射关系。这种方法高度依赖人工,效率低下,匹配能力有限,且过分依赖业务知识,沟通成本高。因此,构建组织机构自动映射模型,提升组织机构数据匹配效率,解决大批量组织机构(特别是县级及以下的基层组织)的自动化映射问题,成为亟需攻克的重难点问题。
技术实现思路
1、为克服上述现有技术的不足,本发明提出一种组织机构数据自动匹配工具构建方法及系统。
2、本发明提供的技术方案如下:
3、本发明提供了一种组织机构数据自动匹配工具构建方法,包括:
4、将接收到的多个数据源的组织机构数据进行预处理得到第一数据集;
5、分别针对不同的角度对所述第一数据集通过执行算法集群中的算法进行特征提取,并根据提取结果构建包含特征项的第二数据集;
6、将第二数据集输入到预先训练的随机森林模型中,根据随机森林模型的输出构建结果宽表;
7、封装上述步骤得到组织机构数据自动匹配工具。
8、优选的,所述算法集群中的算法至少包括:基于规则的正则匹配方法、基于深度学习的命名实体识别方法、基于word2vec编码的文本表示方法、基于levenshtein距离的相似度计算方法、基于tf-idf的关键词提取方法。
9、优选的,所述执行算法集群中的算法,包括:
10、依次执行所述基于规则的正则匹配方法和所述基于深度学习的命名实体识别方法;
11、执行所述基于word2vec编码的文本表示方法、所述基于levenshtein距离的相似度计算方法以及所述基于tf-idf的关键词提取方法。
12、优选的,所述预处理,包括:
13、提取组织机构数据的行政区划信息;
14、根据所述行政区划信息对所述组织机构数据进行区域划分;
15、将各个分区内的所述组织机构数据进行全连接。
16、优选的,在所述提取组织机构数据的行政区划信息之前,还包括:
17、对组织机构数据进行数据清洗;
18、对组织机构数据进行异常值处理。
19、优选的,所述对组织机构数据进行异常值处理,包括:
20、将组织机构数据通过相关性分析方法判断其是否为孤岛数据;
21、若是,则删除该组织机构数据;
22、若否,则保留组织机构数据。
23、优选的,在所述封装上述步骤得到组织机构数据自动匹配工具之后,还包括:
24、接收下游工作流对所述结果宽表的反馈和及人工核验结果;
25、根据所述反馈和及人工核验结果对所述随机森林模型进行迭代优化和结果修正。
26、基于同一发明构思,本发明还提供了一种组织机构数据自动匹配工具构建系统,包括:
27、预处理模块,用于:将接收到的多个数据源的组织机构数据进行预处理得到第一数据集;
28、特征提取模块,用于:分别针对不同的角度对所述第一数据集通过执行算法集群中的算法进行特征提取,并根据提取结果构建包含特征项的第二数据集;
29、模型预测模块,用于:将第二数据集输入到预先训练的随机森林模型中,根据随机森林模型的输出构建结果宽表;
30、封装模块,用于:封装上述预处理模块、特征提取模块以及模型预测模块得到组织机构数据自动匹配工具。
31、优选的,所述特征提取模块中算法集群中的算法至少包括:基于规则的正则匹配方法、基于深度学习的命名实体识别方法、基于word2vec编码的文本表示方法、基于levenshtein距离的相似度计算方法、基于tf-idf的关键词提取方法。
32、优选的,所述特征提取模块执行算法集群中的算法,包括:
33、依次执行所述基于规则的正则匹配方法和所述基于深度学习的命名实体识别方法;
34、执行所述基于word2vec编码的文本表示方法、所述基于levenshtein距离的相似度计算方法以及所述基于tf-idf的关键词提取方法。
35、优选的,所述预处理模块中的预处理,包括:
36、提取组织机构数据的行政区划信息;
37、根据所述行政区划信息对所述组织机构数据进行区域划分;
38、将各个分区内的所述组织机构数据进行全连接。
39、优选的,所述预处理模块在所述提取组织机构数据的行政区划信息之前,还包括:
40、对组织机构数据进行数据清洗;
41、对组织机构数据进行异常值处理。
42、优选的,所述预处理模块对组织机构数据进行异常值处理,包括:
43、将组织机构数据通过相关性分析方法判断其是否为孤岛数据;
44、若是,则删除该组织机构数据;
45、若否,则保留组织机构数据。
46、优选的,所述封装模块封装上述步骤得到组织机构数据自动匹配工具之后,还包括:
47、接收下游工作流对所述结果宽表的反馈和及人工核验结果;
48、根据所述反馈和及人工核验结果对所述随机森林模型进行迭代优化和结果修正。
49、基于同一发明构思,本发明又提出一种计算机设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
50、当所述一个或多个程序被所述一个或多个处理器执行时,实现上述的一种组织机构数据自动匹配工具构建方法。
51、基于同一发明构思,本发明再提出一种计算机设备,一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现上述的一种组织机构数据自动匹配工具构建方法。
52、与最接近的现有技术相比,本发明具有的有益效果如下:
53、本发明提供了一种组织机构数据自动匹配工具构建方法及系统,首先将接收到的多个数据源的组织机构数据进行预处理得到第一数据集;其次分别针对不同的角度对所述第一数据集通过执行算法集群中的算法进行特征提取,并根据提取结果构建包含特征项的第二数据集;之后将第二数据集输入到预先训练的随机森林模型中,根据随机森林模型的输出构建结果宽表;最后封装上述各个步骤得到组织机构数据自动匹配工具。实现了通过计算机构建组织机构自动映射模型,提升组织机构数据匹配效率,解决大批量组织机构(特别是县级及以下的基层组织)的自动化映射问题。
1.一种组织机构数据自动匹配工具构建方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述算法集群中的算法至少包括:基于规则的正则匹配方法、基于深度学习的命名实体识别方法、基于word2vec编码的文本表示方法、基于levenshtein距离的相似度计算方法、基于tf-idf的关键词提取方法。
3.如权利要求2所述的方法,其特征在于,所述执行算法集群中的算法,包括:
4.如权利要求1所述的方法,其特征在于,所述预处理,包括:
5.如权利要求4所述的方法,其特征在于,在所述提取组织机构数据的行政区划信息之前,还包括:
6.如权利要求5所述的方法,其特征在于,所述对组织机构数据进行异常值处理,包括:
7.如权利要求1所述的方法,其特征在于,在所述封装上述步骤得到组织机构数据自动匹配工具之后,还包括:
8.一种组织机构数据自动匹配工具构建系统,其特征在于,包括:
9.一种计算机设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
10.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现权利要求1至7中任一项所述的一种组织机构数据自动匹配工具构建方法。