一种公示项目数据的处理方法及装置与流程

专利2025-06-09  14


本技术涉及数据解析的,特别是涉及一种公示项目数据的处理方法及装置。


背景技术:

1、随着信息技术的发展,互联网中各个类型的电子文档的数量不断增加,互联网企业通过对公开的或是自身数据库中特定类型的电子文档进行数据解析,以获取符合自身数据结构需求的数据库。

2、然而,涉及公示项目的数据不断增多,对电子文档进行数据解析时,需要大量的人力去逐一过滤并审核,并且无法避免人工审核抽取公示管理数据所带来的疏忽,导致了解析公示项目数据的效率被降低。

3、目前,亟需一种公示项目数据的处理方法及装置来解决相关技术中存在的问题。


技术实现思路

1、本技术提供了一种公示项目数据的处理方法及装置,以解决在对电子文档进行数据解析时,需要大量的人力去逐一过滤并审核,降低了解析公示项目数据的效率的问题。

2、本技术第一方面提供一种公示项目数据的处理方法,应用于数据处理平台,方法包括:获取待解析的公示项目数据,公示项目数据的类型包括word、excel以及html;对公示项目数据进行全局过滤,得到第一公示项目数据,全局过滤用于过滤公示项目数据中的非项目名文本;将第一公示项目数据组装成第一数组;采用预设分类模型对第一数组进行分类预测,以得到第一公示项目数据中的项目群,项目群包括第一项目;当第一项目的项目名不存在唯一对应的项目申请公司时,对第一项目进行项目名内部关系判断,以便于获得第一项目的新建项目名,第一项目的新建项目名存在唯一对应的项目申请公司;当项目群中的任一项目的项目名都存在唯一对应的项目申请公司时,根据公示项目数据中各个项目的表头信息,获取项目公示名单信息,项目公示名单信息包括项目申请公司与项目名的对应关系。

3、本技术通过采用上述方法,提高了处理公示项目数据时,获取项目公示名单信息的准确度,提高了解析公示项目数据的效率。

4、可选的,对第一项目进行项目名内部关系判断具体包括:判断第一项目是否存在更换字符后重复出现的项目名;当存在更换字符后重复出现的项目名时,将重复出现的项目名合并为第一项目的唯一项目名;判断第一项目的项目名是否存在上级项目名或下级项目名;当第一项目的项目名存在上级项目名或下级项目名时,将第一项目的项目名与上级项目名或下级项目名进行拼接,以组成第一项目的唯一新项目名本技术通过采用上述方法,通过对项目名内部关系进行判断,消除了表示同一项目名的项目在更换字符后被重复获取的情况,从而提高了获取项目公示名单信息的准确度。同时,对上下级项目名进行拼接,避免项目申请公司存在多个表示同一项目的项目名。

5、可选的,项目名与项目申请公司在预设区域内,预设区域包括省级行政区、市级行政区、县级行政区以及区级行政区中的任意一种。

6、本技术通过采用上述方法,将项目名与项目申请公司限定在同一区域内,提高了获取的项目公示名单信息中项目申请公司与项目名的对应关系的准确度。

7、可选的,对公示项目数据进行全局过滤,得到第一公示项目数据具体包括:当公示项目数据的类型为excel时,采用pandas模块以及xlrd模块对单元格信息进行填补;其中,采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据;将dateframe作为第一公示项目数据。

8、本技术通过采用上述方法,在公示项目数据的类型为excel时,通过对单元格信息进行填补,采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据。

9、可选的,采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据之前,方法还包括:获取excel文档中占据整行单元格的项目名占excel文档的所有项目名的第一百分比;当第一百分比大于或等于预设百分比时,过滤excel文档中非项目名的单元格。本技术实施例中的dataframe数据是由多个series数据列组成的表格数据类型。

10、本技术通过采用上述方法,在excel文档中占据整行单元格的项目名占excel文档的所有项目名的第一百分比大于或等于预设百分比时,过滤excel文档中非项目名的单元格,降低了全局过滤得到的第一公示项目数据中的非项目名信息。

11、可选的,当公示项目数据的类型为excel时,对第一项目执行项目名内部关系判断还包括:检验分类预测的结果中是否存在非项目名信息;当分类预测的结果中存在非项目名信息,去除非项目名信息。

12、本技术通过采用上述方法,对分类预测的结果进行检验,避免分类预测的结果中出现非项目名信息。

13、可选的,对公示项目数据进行全局过滤,得到第一公示项目数据具体包括:当公示项目数据的类型为word时,检测公示项目数据是否存在附件;当公示项目数据存在附件时,检测附件中的项目名是否在全局过滤的结果中重复出现;当附件中的项目名在全局过滤的结果中重复出现时,去除重复出现的项目名,以得到第一公示项目数据。

14、本技术通过采用上述方法,在公示项目数据的类型为word时,对公示项目数据中重复出现的附件的项目名进行检测并清除,提高得到第一公示项目数据的准确度。

15、可选的,当附件中的项目名在全局过滤的结果中重复出现时,去除重复出现的项目名;具体包括:检测全局过滤的结果中各个项目名之间的文本相似度,文本相似度用于表示第一项目名与第二项目名之间的项目名相似程度;其中,当文本相似度大于或等于文本相似度阈值时,确认第一项目名以及第二项目名为重复的项目名,去除重复第一项目名或第二项目名,以避免表示同一个项目的不同项目名被重复记录。

16、本技术通过采用上述方法,检测全局过滤的结果中各个项目名之间的文本相似度,从而确认全局过滤的结果中的重复的项目名,去除重复的第一项目名或第二项目名,避免表示同一个项目的不同项目名被重复记录。

17、本技术第二方面提供一种公示项目数据的处理装置,装置为数据处理平台,数据处理平台包括数据获取模块、过滤模块、组装模块、分类模块、内部关系判断模块以及名单获取模块;数据获取模块,用于获取待解析的公示项目数据,公示项目数据的类型包括word、excel以及html;过滤模块,用于对公示项目数据进行全局过滤,得到第一公示项目数据,全局过滤用于过滤公示项目数据中的非项目名文本;组装模块,用于将第一公示项目数据组装成第一数组;分类模块,用于采用预设分类模型对第一数组进行分类预测,以得到第一公示项目数据中的项目群,项目群包括第一项目;内部关系判断模块,用于当第一项目的项目名不存在唯一对应的项目申请公司时,对第一项目进行项目名内部关系判断,以便于获得第一项目的新建项目名,第一项目的新建项目名存在唯一对应的项目申请公司;名单获取模块,当项目群中的任一项目的项目名都存在唯一对应的项目申请公司时,根据公示项目数据中各个项目的表头信息,获取项目公示名单信息,项目公示名单信息包括项目申请公司与项目名的对应关系。

18、可选的,内部关系判断模块包括第一判断单元,第一判断单元用于判断第一项目是否存在更换字符后重复出现的项目名;当存在更换字符后重复出现的项目名时,将重复出现的项目名合并为第一项目的唯一项目名;判断第一项目的项目名是否存在上级项目名或下级项目名;当第一项目的项目名存在上级项目名或下级项目名时,将第一项目的项目名与上级项目名或下级项目名进行拼接,以组成第一项目的唯一新项目名。

19、可选的,过滤模块包括第一过滤单元,第一过滤单元用于对公示项目数据进行全局过滤,得到第一公示项目数据具体包括:当公示项目数据的类型为excel时,采用pandas模块以及xlrd模块对单元格信息进行填补;其中,采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据;将dateframe作为第一公示项目数据。

20、可选的,过滤模块还包括第二过滤单元,第二过滤单元用于采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据之前,方法还包括:获取excel文档中占据整行单元格的项目名占excel文档的所有项目名的第一百分比;当第一百分比大于或等于预设百分比时,过滤excel文档中非项目名的单元格。

21、可选的,内部关系判断模块包括第二判断单元,第二判断单元用于当公示项目数据的类型为excel时,检验分类预测的结果中是否存在非项目名信息;当分类预测的结果中存在非项目名信息,去除非项目名信息。

22、可选的,过滤模块还包括第三过滤单元,第三过滤单元用于当公示项目数据的类型为word时,检测公示项目数据是否存在附件;当公示项目数据存在附件时,检测附件中的项目名是否在全局过滤的结果中重复出现;当附件中的项目名在全局过滤的结果中重复出现时,去除重复出现的项目名,以得到第一公示项目数据

23、可选的,第三过滤单元包括相似度过滤子单元,相似度过滤子单元用于检测全局过滤的结果中各个项目名之间的文本相似度,文本相似度用于表示第一项目名与第二项目名之间的项目名相似程度;其中,当文本相似度大于或等于文本相似度阈值时,确认第一项目名以及第二项目名为重复的项目名,去除重复第一项目名或第二项目名,以避免表示同一个项目的不同项目名被重复记录。

24、本技术第三方面提供一种电子设备,电子设备包括处理器、存储器、用户接口及网络接口,存储器用于存储指令,用户接口和网络接口用于给其他设备通信,处理器用于执行存储器中存储的指令,以使电子设备执行上述中任一项的方法。

25、本技术第四方面提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令被执行时,执行本上述中任一项的方法。

26、与相关技术相比,本技术的有益效果是:提高了处理公示项目数据时,获取项目公示名单信息的准确度,提高了解析公示项目数据的效率。通过对项目名内部关系进行判断,消除了表示同一项目名的项目在更换字符后被重复获取的情况,从而提高了获取项目公示名单信息的准确度。同时,对上下级项目名进行拼接,避免项目申请公司存在多个表示同一项目的项目名。将项目名与项目申请公司限定在同一区域内,提高了获取的项目公示名单信息中项目申请公司与项目名的对应关系的准确度。在excel文档中占据整行单元格的项目名占excel文档的所有项目名的第一百分比大于或等于预设百分比时,过滤excel文档中非项目名的单元格,降低了全局过滤得到的第一公示项目数据中的非项目名信息。在公示项目数据的类型为word时,对公示项目数据中重复出现的附件的项目名进行检测并清除,提高得到第一公示项目数据的准确度。检测全局过滤的结果中各个项目名之间的文本相似度,从而确认全局过滤的结果中的重复的项目名,去除重复的第一项目名或第二项目名,避免表示同一个项目的不同项目名被重复记录。


技术特征:

1.一种公示项目数据的处理方法,其特征在于,应用于数据处理平台,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一项目进行项目名内部关系判断具体包括:

3.根据权利要求1所述的方法,其特征在于,所述项目名与所述项目申请公司在预设区域内,所述预设区域包括省级行政区、市级行政区、县级行政区以及区级行政区中的任意一种。

4.根据权利要求1所述的方法,其特征在于,所述对所述公示项目数据进行全局过滤,得到第一公示项目数据具体包括:

5.根据权利要求4所述的方法,其特征在于,所述采用xlrd模块中获取到的合并单元格的信息,得到dataframe数据之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,当所述公示项目数据的类型为excel时,所述对所述第一项目执行项目名内部关系判断还包括:

7.根据权利要求1所述的方法,其特征在于,所述对所述公示项目数据进行全局过滤,得到第一公示项目数据具体包括:

8.根据权利要求7所述的方法,其特征在于,当所述附件中的项目名在所述全局过滤的结果中重复出现时,去除重复出现的项目名;具体包括:

9.一种公示项目数据的处理装置,其特征在于,所述装置为数据处理平台,所述数据处理平台包括数据获取模块(10)、过滤模块(11)、组装模块(12)、分类模块(13)、内部关系判断模块(14)以及名单获取模块(15);

10.一种电子设备,其特征在于,包括处理器(1001)、用户接口(1003)、网络接口(1004)及存储器(1005),所述存储器(1005)用于存储指令,所述用户接口(1003)和网络接口(1004)用于给其他设备通信,所述处理器(1001)用于执行所述存储器(1005)中存储的指令,以使所述电子设备(1000)执行如权利要求1-8任意一项所述的方法。


技术总结
本申请提供一种公示项目数据的处理方法及装置,公示项目数据的处理方法包括:获取待解析的公示项目数据;对公示项目数据进行全局过滤,得到第一公示项目数据;将第一公示项目数据组装成第一数组;采用预设分类模型对第一数组进行分类预测;当第一项目的项目名不存在唯一对应的项目申请公司时,对第一项目进行项目名内部关系判断;当项目群中的任一项目的项目名都存在唯一对应的项目申请公司时,根据公示项目数据中各个项目的表头信息,获取项目公示名单信息,项目公示名单信息包括项目申请公司与项目名的对应关系。本申请通过上述方法,解决了在对电子文档进行数据解析时,需要大量的人力去逐一过滤并审核,降低了解析公示项目数据的效率的问题。

技术研发人员:方美川
受保护的技术使用者:企知道科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/index.php/read-1821011.html

最新回复(0)