基于深度学习算法的工程日报分析方法与流程

专利2022-05-11  82


1.本发明涉及电子数字数据处理领域,尤其是一种基于深度学习算法的工程日报分析方法。


背景技术:

2.工程日报是建筑工程在整个施工阶段的组织管理、施工技术、现场情况变化的真实性综合记录,也是处理施工问题的备忘录和总结施工管理经验的基本素材。
3.对于这一项简单又重要的工作,很多工程单位却不太重视,由于在填写日报时的随意性、或者未根据事实填写,造成工程日报难以理解、工程竣工后的整体工程资料缺乏有效基础,从而带来很多负面影响。
4.目前市面上的在工程领域里还没有针对于项目日报进行分析的产品,需要一种产品或方法,对工程日报进行分析,以辅助相关负责人对于项目整体的情况了解和对于进度的把握。


技术实现要素:

5.针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供一种基于深度学习算法的工程日报分析方法,有效识别每日的工程日报关键词,并进行分析提示,对工程现状进行呈现。
6.其解决方案是,一种基于深度学习算法的工程日报分析方法,其特征在于:将预定义的关键词语输入至数据库中;提取pdf中的相关日报信息;通过ner提取日报中的关键词,重构出日报结构信息,每一次提取出的关键词与重构出的日报结构信息均存入数据库;将重构的日报结构信息与数据库内已有数据进行对比,若数据库中已存在该数据,则将重构出的日报信息与数据库中的数据进行对比分析,看对比结果是否存在的逻辑矛盾;若数据库中不存在该数据,则将该数据记录存储在数据库中;若对比结果存在逻辑矛盾,则将逻辑矛盾作为提示点进行显示;若对比结果不存在逻辑矛盾,则将该数据记录存储在数据库内。
7.优选地,所述提取日报中的关键词、重构日报结构信息的具体方法包括:收集日报数据对日报数据进行清洗,使用正则技术对原始日报数据清洗,将文本中的无用数据过滤掉,只留下有用的关键信息;将数据传入bert模型进行预训练,使用bert输出的最后一个维度数据作为cnn crf 模型的输入embedding,而后进行时间、工程工序、工程作业内容等,提取出我们的需要实体内容。
8.优选地,所述实体内容进行实体链指技术消除歧义,构造成三元组数据,所有三元组数据的集合即形成kg知识图谱。
9.本发明的有益效果:1.通过编程方式采集用户每日提交的日报信息,用命名实体识别的方式,提取预定义的关键词语,结合工程领域的相关规范,通过对日报内潜在的问题进行提示,给项目负责人提供判断依据,辅助相关负责人对于项目整体的情况了解和对于进度的把握,及时对情况作出处理;2.本文所提出的关键词抽取方法相比于人工分析可节省大量人力物力,准确率和精确率都有质的提升。
附图说明
10.图1为本发明的方法流程示意图。
具体实施方式
11.以下结合附图对本发明的具体实施方式作进一步详细说明。
12.由图1给出,一种基于深度学习算法的工程日报分析方法,其特征在于:将预定义的关键词语输入至数据库中;提取pdf中的相关日报信息;通过ner提取日报中的关键词,重构出日报结构信息,每一次提取出的关键词与重构出的日报结构信息均存入数据库;将重构的日报结构信息与数据库内已有数据进行对比,若数据库中已存在该数据,则将重构出的日报信息与数据库中的数据进行对比分析,看对比结果是否存在的逻辑矛盾;若数据库中不存在该数据,则将该数据记录存储在数据库中;若对比结果存在逻辑矛盾,则将逻辑矛盾作为提示点进行显示;若对比结果不存在逻辑矛盾,则将该数据记录存储在数据库内。
13.本方法中的ner技术使用的是bert cnn crf模型,其中cnn具体为idcnn模型;对ner来讲,整个输入句子中每个字都有可能对当前位置的标注产生影响,即所谓的长距离依赖问题,为了覆盖到全部的输入信息就需要加入更多的卷积层,导致层数越来越深,参数越来越多;而为了防止过拟合又要加入更多的dropout之类的正则化,带来更多的超参数,整个模型变得庞大且难以训练,因为cnn这样的劣势,对于大部分序列标注问题人们还是选择bi lstm之类的网络结构,尽可能利用网络的记忆力记住全句的信息来对当前字做标注,但bi lstm本质是一个序列模型,在对gpu并行计算的利用上不如cnn那么强大,因此我们采用了idcnn;具体使用时,dilated width会随着层数的增加而指数增加,这样随着层数的增加,参数数量是线性增加的,而receptive field却是指数增加的,可以很快覆盖到全部的输入数据;对应在文本上,输入是一个一维的向量,每个元素是一个character embedding,idcnn对输入句子的每一个字生成一个logits,这里就和bi lstm模型输出logits完全一样,加入crf层,用viterbi算法解码出标注结果;在bilstm或者idcnn这样的网络模型末端接上crf层是序列标注的一个很常见的方法,此处不再赘述;bilstm或者idcnn计算出的是每个词的各标签概率,而crf层引入序列的转移概率,最终计算出loss反馈回网络,idcnn相比于传统的cnn来说不但保有了cnn的优
点还很大程度上降低了参数量。
14.所述提取日报中的关键词、重构日报结构信息的具体方法包括:收集日报数据对日报数据进行清洗,使用正则技术对原始日报数据清洗,将文本中的无用数据过滤掉,只留下有用的关键信息;将数据传入bert模型进行预训练,使用bert输出的最后一个维度数据作为cnn crf 模型的输入embedding,而后进行时间、工程工序、工程作业内容等,提取出我们的需要实体内容。
15.利用深度学习模型bert预训练的特性与ai技术命名实体识别以及kg知识图谱相结合,ai技术提取出日报中的实体内容,针对工程日报文本短、篇幅小的特性,利用bert预训练技术对文本进行预训练结合ner技术进行模型网络结构的构建。
16.所述实体内容进行实体链指技术消除歧义,构造成三元组数据,所有三元组数据的集合即形成kg知识图谱。kg知识图谱技术主要使用到实体链指技术,实体链指的输入为一段自然语言文本,称为查询文档或查询名称,实体链指系统即需要从一个知识库中找到查询名称所指代的实体,此时则称为目标实体;如果知识库中没有收录目标实体,系统将返回空标记。其中知识库可以是由实体构成的结构化信息的数据库,也可以是半结构信息形式的百科全书,此处优选半结构信息形式知识库,因为在分析日报的时候我们主要基于实体之间的关系进行工程进度,工序异常的预警提示判断,加上中文中一词多意的情况很多,因此对于实体的歧义消除很重要。
17.本发明在使用时,将所有待分析日报以pdf的形式上传,通过程序编程提取pdf中的相关日报信息;通过ner做上游任务,提取日报中关键词,并通过一系列的分割、替换等算法,重构出对应的结构信息;重构出的信息与数据库信息对比,并将对比结果中存在的逻辑矛盾进行提示。
18.以上所述的实施例并非对本发明的范围进行限定,在不脱离本发明设计构思的前提下,本领域所属技术人员对本发明的技术方案作出的各种变形和改进,均应纳入本发明的权利要求书确定的保护范围内。
转载请注明原文地址:https://doc.8miu.com/read-1795881.html

最新回复(0)