基于大数据实现工程造价数据库快速形成的方法和系统与流程

专利2022-05-10 70

1.本发明属于数据库构建技术领域，具体地涉及一种基于大数据实现工程造价数据库快速形成的方法和系统。

背景技术：

2.根据住房城乡建设部发布的国家标准《工程造价术语标准》(gb/t50875
‑
2013)，工程造价(project costs，pc)是指构成项目在建设期预计或实际支出的建设费用。根据住房城乡建设部发布的国家标准《工程造价术语标准》(gb/t50875
‑
2013)，工程造价(project costs，pc)是指构成项目在建设期预计或实际支出的建设费用。
3.目前，我国工程建筑领域信息化整体水平相对不高，尤其是在数据尤为繁杂的工程造价信息行业中。大部分施工企业、造价员还停留依靠人的经验积累、普通计算机的表格化存储进行。在国家主管部门相继出台了各种行业标准和法律法规，行业发展越来越规范的情况下，单纯依靠建筑企业造价工作人员的经验和知识进行有效的造价数据管理和存储，是特别特别麻烦的一件事情，更不可能在海量造价信息数据中通过手工查找目标信息。因此，数据智库让我们的造价效率大大提高。
4.工程造价涉及多个专业，其涉及大量数据，如何快速构建形成工程造价数据库是值得研究的事情。

技术实现要素：

5.为了解决现有的问题，本发明提供一种基于大数据实现工程造价数据库快速形成的方法和系统，其可快速实现工程造价各专业文档文件的构建，分专业存储便于查找。
6.本发明通过以下技术方案实现：
7.本发明第一方面提供一种基于大数据实现工程造价数据库快速形成的方法，包括以下步骤：
8.分别获取至少一个与工程造价相关专业中每个专业相关的参考文档文件，所述相关专业至少包括装饰、建筑、采暖、给排水、消防、照明、弱电、动力、电梯、防雷接地；
9.分别对每个专业的参考文档文件进行命名实体识别；
10.根据每个专业的命名实体查找与对应专业相关联的文档文件；
11.分别对每个专业的文档文件进行命名实体识别；
12.根据识别出的命名实体分别对每个专业的文档文件进行筛选，对文档文件分专业存储形成数据库。
13.本方案通过识别出每个专业相关的参考文档文件中的命名实体，通过命名实体查找更多的与对应专业相关的文档文件，并通过对文档文件中命名实体的识别，并基于识别出的命名实体对文档文件进行筛选，最终确定每个专业相关的文档文件，采用上述方法可快速实现工程造价各专业文档文件的构建，分专业存储便于查找。
14.在一种可能的设计中，所述根据每个专业的命名实体查找与该命名实体相关联的
文档文件包括：
15.根据每个专业的命名实体获取与对应专业相关的本地文档文件；和/或，
16.根据每个专业的命名实体从网络爬取与对应专业相关的文档文件。
17.在一种可能的设计中，所述分别对每个专业的参考文档文件进行命名实体识别包括：
18.识别每个专业参考文档文件的命名实体并进行归类；
19.对归类后的命名实体与该专业的关联度进行判断以确定筛选出该专业对应的参考命名实体。
20.在一种可能的设计中，所述根据识别出的命名实体分别对每个专业的文档文件进行筛选包括：
21.分别统计每个文档文件识别出的命名实体类型及其对应数量；
22.筛选出与参考命名实体相同的命名实体类型且命名实体类型的数量大于一阈值的文档文件，得到与每个专业相对应的文档文件。
23.在一种可能的设计中，所述根据识别出的命名实体分别对每个专业爬取的文档文件进行筛选还包括：
24.对所有专业的文档文件进行相同性查找，查找出同时与至少两个专业对应的文档文件；
25.确定该同时与至少两个专业对应的文档文件最终对应的专业，并在该文档文件上添加标签，所属标签包括除最终对应的专业之外的专业标签。
26.本发明第二方面提供一种基于大数据实现工程造价数据库快速形成的系统，包括：
27.一文档文件获取单元，所述文档文件获取单元用于分别获取至少一个与工程造价相关专业中每个专业相关的参考文档文件，所述相关专业至少包括装饰、建筑、采暖、给排水、消防、照明、弱电、动力、电梯、防雷接地；
28.一命名实体识别单元，所述命名实体识别单元用于对每个专业的文档文件进行命名实体识别；
29.一文档文件查找单元，所述文档文件查找单元用于根据每个专业的命名实体查找与对应专业相关联的文档文件；
30.一文档文件筛选单元，所述文档文件筛选单元用于根据识别出的命名实体分别对每个专业的文档文件进行筛选；
31.一数据库构建单元，所述数据库构建单元用于根据文档文件筛选单元的筛选结果对文本文档分专业存储形成数据库。
32.在一种可能的设计中，所述文档文件查找单元包括：
33.一本地查找单元，所述本地查找单元用于据每个专业的命名实体获取与对应专业相关的本地文档文件；
34.一网络数据爬取单元，所述网络数据爬取单元用于根据每个专业的命名实体从网络爬取与对应专业相关的文档文件。
35.在一种可能的设计中，所述数据库构建单元包括：
36.一数据统计单元，所述数据统计单元用于分别统计每个文档文件识别出的命名实
体类型及其对应数量；
37.一筛选单元，所述筛选单元用于筛选出与参考命名实体相同的命名实体类型且命名实体类型的数量大于一阈值的文档文件，得到与每个专业相对应的文档文件；
38.一构建单元，所述构建单元用于对文档文件分专业存储形成数据库。
39.本发明与现有技术相比，至少具有以下优点和有益效果：
40.本发明通过识别出每个专业相关的参考文档文件中的命名实体，通过命名实体查找更多的与对应专业相关的文档文件，并通过对文档文件中命名实体的识别，并基于识别出的命名实体对文档文件进行筛选，最终确定每个专业相关的文档文件，采用上述方法可快速实现工程造价各专业文档文件的构建，分专业存储便于查找。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
42.图1是本发明基于大数据实现工程造价数据库快速形成的方法的流程图。
43.图2为本发明基于大数据实现工程造价数据库快速形成的系统的原理框图。
具体实施方式
44.下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。
45.应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，单独存在b，同时存在a和b三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，a/和b，可以表示：单独存在a，单独存在a和b两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。
46.应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。
47.本发明公开了一种基于大数据实现工程造价数据库快速形成的方法，该方法可以由一构建装置来执行，构建装置可以是软件，或者为软件和硬件的组合，构建装置可以集成设置在服务器、终端设备等中。具体的，如图1所示，工程造价数据库快速形成的方法包括以下步骤s101～步骤s105。
48.步骤s101、分别获取至少一个与工程造价相关专业中每个专业相关的参考文档文件，所述相关专业至少包括装饰、建筑、采暖、给排水、消防、照明、弱电、动力、电梯、防雷接地。
49.在该步骤中，每个专业的参考文档越多，后续识别出对应专业的命名实体越多，对文档文件的筛选和归类越准确。此处若单个专业仅仅有一个参考文档文件，为了提高对文
档文件的筛选和归类准确性，需注意参考文档文件的选择。
50.步骤s102、分别对每个专业的参考文档文件进行命名实体识别，得到每个专业对应的参考命名实体。命名实体包括实体、属性等，实体包括砌体结构、钢结构、建筑装饰、室内装修等，属性包括工程量、单价、档次等。每个专业的参考文档可能是一个或多个，在多个时，针对每个参考文档的命名实体可能存在重复，先需对识别出的每个专业参考文档文件的命名实体进行归类，即将多个参考文档相同的命名实体进行归类；识别出的命名实体有很多，其可能与该专业的关联度不高，再次对归类后的命名实体与该专业的关联度进行判断以确定筛选出该专业对应的参考命名实体。
51.该步骤中，可采用预训练语言模型bert和条件随机场crf构成的命名实体识别模型进行识别，该模型需为预先训练完成的模型。
52.步骤s103、根据每个专业对应的参考命名实体查找与该专业相关联的文档文件。文档文件的来源有很多，譬如，可以是本地文件，也可以是网络文件。网络文件是大数据的来源，此处查找包括本地查找和/或网络获取，即具体的，该步骤包括：根据每个专业的命名实体获取与对应专业相关的本地文档文件；和/或，根据每个专业的命名实体从网络爬取与对应专业相关的文档文件。从网站爬取的数据来源为开放数据。
53.步骤s104、分别对每个专业相关联的文档文件进行命名实体识别。该步骤中，同样可采用预训练语言模型bert和条件随机场crf构成的命名实体识别模型进行识别，在此不再赘述。
54.步骤s105、根据识别出的命名实体分别对每个专业相关联的文档文件进行筛选，对文档文件分专业存储形成数据库。
55.具体的，该步骤包括：分别统计每个文档文件识别出的命名实体类型及其对应数量；通过命名实体查找的文档文件其不一定是本专业的文档文本，通过命名实体实现其查找准确性的确认。进一步的，筛选出与参考命名实体相同的命名实体类型且命名实体类型的数量大于一阈值的文档文件，得到与每个专业相对应的文档文件。
56.但是，筛选出的与每个专业相对应的文档文件可能出现重复，即一个文档文件即属于专业a，也属于专业b，同时与至少两个专业对应，重复存储势必造成存储空间的浪费，为了解决上述问题，还包括：对所有专业的文档文件进行相同性查找，查找出同时与至少两个专业对应的文档文件；确定该同时与至少两个专业对应的文档文件最终对应的专业，并在该文档文件上添加标签，所属标签包括除最终对应的专业之外的专业标签，以便于后续使用查找。
57.本方法采用上述步骤s101～步骤s105，通过识别出每个专业相关的参考文档文件中的命名实体，通过命名实体查找更多的与对应专业相关的文档文件，并通过对文档文件中命名实体的识别，并基于识别出的命名实体对文档文件进行筛选，最终确定每个专业相关的文档文件，采用上述方法可快速实现工程造价各专业文档文件的构建，分专业存储便于查找。
58.本发明第二方面提供一种基于大数据实现工程造价数据库快速形成的系统，其为实现上述第一方面中的方法，如图2所示，该系统包括：
59.一文档文件获取单元，所述文档文件获取单元用于分别获取至少一个与工程造价相关专业中每个专业相关的参考文档文件，所述相关专业至少包括装饰、建筑、采暖、给排
水、消防、照明、弱电、动力、电梯、防雷接地；
60.一命名实体识别单元，所述命名实体识别单元用于对每个专业的文档文件进行命名实体识别；
61.一文档文件查找单元，所述文档文件查找单元用于根据每个专业的命名实体查找与对应专业相关联的文档文件；
62.一文档文件筛选单元，所述文档文件筛选单元用于根据识别出的命名实体分别对每个专业的文档文件进行筛选；
63.一数据库构建单元，所述数据库构建单元用于根据文档文件筛选单元的筛选结果对文本文档分专业存储形成数据库。
64.文档文件获取单元、命名实体识别单元、文档文件查找单元、文档文件筛选单元和数据库构建单元之间的连接关系如图2所示，其信号流向参照本发明第一方面的方法所示。
65.具体的，所述文档文件查找单元包括：
66.一本地查找单元，所述本地查找单元用于据每个专业的命名实体获取与对应专业相关的本地文档文件；
67.一网络数据爬取单元，所述网络数据爬取单元用于根据每个专业的命名实体从网络爬取与对应专业相关的文档文件。
68.所述数据库构建单元包括：
69.一数据统计单元，所述数据统计单元用于分别统计每个文档文件识别出的命名实体类型及其对应数量；
70.一筛选单元，所述筛选单元用于筛选出与参考命名实体相同的命名实体类型且命名实体类型的数量大于一阈值的文档文件，得到与每个专业相对应的文档文件；
71.一构建单元，所述构建单元用于对文档文件分专业存储形成数据库。
72.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

转载请注明原文地址:https://doc.8miu.com/read-1350020.html

专利

最新回复(0)