基于深度学习算法的工程日报分析方法与流程

专利2022-05-11 82

1.本发明涉及电子数字数据处理领域，尤其是一种基于深度学习算法的工程日报分析方法。

背景技术：

2.工程日报是建筑工程在整个施工阶段的组织管理、施工技术、现场情况变化的真实性综合记录，也是处理施工问题的备忘录和总结施工管理经验的基本素材。
3.对于这一项简单又重要的工作，很多工程单位却不太重视，由于在填写日报时的随意性、或者未根据事实填写，造成工程日报难以理解、工程竣工后的整体工程资料缺乏有效基础，从而带来很多负面影响。
4.目前市面上的在工程领域里还没有针对于项目日报进行分析的产品，需要一种产品或方法，对工程日报进行分析，以辅助相关负责人对于项目整体的情况了解和对于进度的把握。

技术实现要素：

5.针对上述情况，为克服现有技术之缺陷，本发明之目的就是提供一种基于深度学习算法的工程日报分析方法，有效识别每日的工程日报关键词，并进行分析提示，对工程现状进行呈现。
6.其解决方案是，一种基于深度学习算法的工程日报分析方法，其特征在于：将预定义的关键词语输入至数据库中；提取pdf中的相关日报信息；通过ner提取日报中的关键词，重构出日报结构信息，每一次提取出的关键词与重构出的日报结构信息均存入数据库；将重构的日报结构信息与数据库内已有数据进行对比，若数据库中已存在该数据，则将重构出的日报信息与数据库中的数据进行对比分析，看对比结果是否存在的逻辑矛盾；若数据库中不存在该数据，则将该数据记录存储在数据库中；若对比结果存在逻辑矛盾，则将逻辑矛盾作为提示点进行显示；若对比结果不存在逻辑矛盾，则将该数据记录存储在数据库内。
7.优选地，所述提取日报中的关键词、重构日报结构信息的具体方法包括：收集日报数据对日报数据进行清洗，使用正则技术对原始日报数据清洗，将文本中的无用数据过滤掉，只留下有用的关键信息；将数据传入bert模型进行预训练，使用bert输出的最后一个维度数据作为cnn crf 模型的输入embedding，而后进行时间、工程工序、工程作业内容等，提取出我们的需要实体内容。
8.优选地，所述实体内容进行实体链指技术消除歧义，构造成三元组数据，所有三元组数据的集合即形成kg知识图谱。
9.本发明的有益效果：1.通过编程方式采集用户每日提交的日报信息，用命名实体识别的方式，提取预定义的关键词语，结合工程领域的相关规范，通过对日报内潜在的问题进行提示，给项目负责人提供判断依据，辅助相关负责人对于项目整体的情况了解和对于进度的把握，及时对情况作出处理；2.本文所提出的关键词抽取方法相比于人工分析可节省大量人力物力，准确率和精确率都有质的提升。
附图说明
10.图1为本发明的方法流程示意图。
具体实施方式
11.以下结合附图对本发明的具体实施方式作进一步详细说明。
12.由图1给出，一种基于深度学习算法的工程日报分析方法，其特征在于：将预定义的关键词语输入至数据库中；提取pdf中的相关日报信息；通过ner提取日报中的关键词，重构出日报结构信息，每一次提取出的关键词与重构出的日报结构信息均存入数据库；将重构的日报结构信息与数据库内已有数据进行对比，若数据库中已存在该数据，则将重构出的日报信息与数据库中的数据进行对比分析，看对比结果是否存在的逻辑矛盾；若数据库中不存在该数据，则将该数据记录存储在数据库中；若对比结果存在逻辑矛盾，则将逻辑矛盾作为提示点进行显示；若对比结果不存在逻辑矛盾，则将该数据记录存储在数据库内。
13.本方法中的ner技术使用的是bert cnn crf模型，其中cnn具体为idcnn模型；对ner来讲，整个输入句子中每个字都有可能对当前位置的标注产生影响，即所谓的长距离依赖问题，为了覆盖到全部的输入信息就需要加入更多的卷积层，导致层数越来越深，参数越来越多；而为了防止过拟合又要加入更多的dropout之类的正则化，带来更多的超参数，整个模型变得庞大且难以训练，因为cnn这样的劣势，对于大部分序列标注问题人们还是选择bi lstm之类的网络结构，尽可能利用网络的记忆力记住全句的信息来对当前字做标注，但bi lstm本质是一个序列模型，在对gpu并行计算的利用上不如cnn那么强大，因此我们采用了idcnn；具体使用时，dilated width会随着层数的增加而指数增加,这样随着层数的增加，参数数量是线性增加的，而receptive field却是指数增加的，可以很快覆盖到全部的输入数据;对应在文本上，输入是一个一维的向量，每个元素是一个character embedding，idcnn对输入句子的每一个字生成一个logits，这里就和bi lstm模型输出logits完全一样，加入crf层，用viterbi算法解码出标注结果；在bilstm或者idcnn这样的网络模型末端接上crf层是序列标注的一个很常见的方法，此处不再赘述；bilstm或者idcnn计算出的是每个词的各标签概率，而crf层引入序列的转移概率，最终计算出loss反馈回网络，idcnn相比于传统的cnn来说不但保有了cnn的优
点还很大程度上降低了参数量。
14.所述提取日报中的关键词、重构日报结构信息的具体方法包括：收集日报数据对日报数据进行清洗，使用正则技术对原始日报数据清洗，将文本中的无用数据过滤掉，只留下有用的关键信息；将数据传入bert模型进行预训练，使用bert输出的最后一个维度数据作为cnn crf 模型的输入embedding，而后进行时间、工程工序、工程作业内容等，提取出我们的需要实体内容。
15.利用深度学习模型bert预训练的特性与ai技术命名实体识别以及kg知识图谱相结合，ai技术提取出日报中的实体内容，针对工程日报文本短、篇幅小的特性，利用bert预训练技术对文本进行预训练结合ner技术进行模型网络结构的构建。
16.所述实体内容进行实体链指技术消除歧义，构造成三元组数据，所有三元组数据的集合即形成kg知识图谱。kg知识图谱技术主要使用到实体链指技术，实体链指的输入为一段自然语言文本，称为查询文档或查询名称，实体链指系统即需要从一个知识库中找到查询名称所指代的实体，此时则称为目标实体；如果知识库中没有收录目标实体，系统将返回空标记。其中知识库可以是由实体构成的结构化信息的数据库，也可以是半结构信息形式的百科全书，此处优选半结构信息形式知识库，因为在分析日报的时候我们主要基于实体之间的关系进行工程进度，工序异常的预警提示判断，加上中文中一词多意的情况很多，因此对于实体的歧义消除很重要。
17.本发明在使用时，将所有待分析日报以pdf的形式上传，通过程序编程提取pdf中的相关日报信息；通过ner做上游任务，提取日报中关键词，并通过一系列的分割、替换等算法，重构出对应的结构信息；重构出的信息与数据库信息对比，并将对比结果中存在的逻辑矛盾进行提示。
18.以上所述的实施例并非对本发明的范围进行限定，在不脱离本发明设计构思的前提下，本领域所属技术人员对本发明的技术方案作出的各种变形和改进，均应纳入本发明的权利要求书确定的保护范围内。

转载请注明原文地址:https://doc.8miu.com/read-1795881.html

专利

最新回复(0)