一种金融舆情研报的机器阅读理解方法及系统与流程

专利2022-05-10 41

1.本发明涉及一种计算机理解文章语义并回答相关问题的技术，尤其涉及一种基于有监督、深度学习算法的金融领域机器阅读理解方法及系统。

背景技术：

2.机器阅读理解（machine reading comprehension，mrc）是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式，因此机器阅读理解属于自然语言处理（nlp）的范畴，也是其中最新最热门的课题之一。近些年来，随着机器学习，特别是深度学习的发展，机器阅读理解研究有了长足的进步，并在实际应用中崭露头角。
3.在2016年之前，大家使用更多的是统计学习的方法，包含了大量的特征工程，非常耗时耗力。在2016年之后，squad数据集发布之后，出现了一些基于注意力机制的匹配模型，比如bidaf、lstm等等。这之后出现了各种网络结构比较复杂的模型，相关工作试图通过复杂的网络结构去捕捉问题和篇章之间的匹配关系。在2018年之后，随着各种预训练语言模型的出现，阅读理解模型效果得到了近一步大幅的提升，因为表示层的能力变的很强大，任务相关的网络结构开始变的简单起来。
4.在机器阅读理解技术应用中，共有四种常见任务，分述如下：一、完形填空：给定文章c，将其中的一个词或者实体a(a∈c)隐去作为待填空的问题，完形填空任务要求通过最大化条件概率p(a|c
‑
{a})来利用正确的词或实体a进行填空。
5.二、多项选择：给定文章c、问题q和一系列候选答案集合，多项选择任务通过最大化条件概率来从候选答案集合a中挑选出正确答案回答问题q。
6.三、片段提取：给定文章c（其中包含n个词）和问题q，片段抽取任务通过最大化条件概率p(a|c,q)来从文章中抽取连续的子序列作为问题的正确答案。
7.四、自由作答：给定文章c和问题q，自由作答的正确答案a有时可能不是文章c的子序列，即a
⊆
c或a
ø
c。自由作答任务通过最大化条件概率p(a|c,q)来预测回答问题q的正确答案a。
8.自由问答是这四个任务中最为有难度，也是工业界最为感兴趣与关注的任务。自由作答任务答案形式非常灵活，能很好的测试对自然语言的理解，与现实应用最为贴近，但是这类任务的数据集构造相对困难，如何有效的评价模型效果有待进行更为深入的研究。
9.如图1所示，典型的机器阅读理解系统一般包括嵌入编码、特征抽取、文章
‑
问题交互和答案预测四个模块，分述如下：嵌入编码：这一模块将输入的自然语言形式的文章和问题转化成固定维度的向量，以便机器进行后续处理。早期常用的方法为传统的词表示方法，如独热表示和分布式词向量，近两年由大规模语料库预训练的基于上下文词表示方法也得到了广泛的应用，如elmo、gpt、bert等。同时，为了能更好地表示语义句法等信息，上述词向量有时也可以和词性标签、命名实体、问题类型等语言特征结合后进行更细粒度的表示。
10.特征提取：经由嵌入编码层编码得到的文章和问题的词向量表示接着传递给特征提取模块，来抽取更多的上下文信息。这一模块中常用的神经网络模型有循环神经网络（rnn）、卷积神经网络（cnn）和基于多头自注意力机制的transformer结构。
11.文章
‑
问题交互：机器可以利用文章和问题之间的交互信息来推测出文章中哪些部分对于回答问题更为重要，为了实现这一目标，文章
‑
问题交互模块常用单向或双向的注意力机制来强调原文中与问题更为相关的部分。与此同时，为了更深层次的挖掘文章和问题之间的关系，两者之间的交互过程有时可能会执行多次，以此来模拟人类在进行阅读理解时重复阅读的行为。
12.答案预测：这一模块基于前述三个模块累积得到的信息进行最终的答案预测。由于常见的机器阅读理解任务可以按照答案类型进行分类，所以这一模块的实现是高度任务相关的。
13.然而，现有机器阅读理解模型准确率不能满足工业界金融领域相对复杂的需求，响应速度无法满足实时问答的需求，且不能识别无法回答的问题，造成特定情况下所给出的答案与问题不符或相去甚远、缺乏参考意义。

技术实现要素：

14.鉴于上述现有技术的不足，本发明的目的旨在提出一种金融舆情研报的机器阅读理解方法及其系统，解决金融领域机器阅读理解准确性、实用性不足，效率低的问题。
15.本发明实现上述目的的一种技术解决方案是：金融舆情研报的机器阅读理解方法，其特征在于包括：数据制定与收集，对应金融垂直领域的需求，预定义用户的问题集，并搜集与问题集相关联的舆情数据；训练数据标注，通过关键词匹配从舆情数据中找出与预定义问题集中问题相贴切的数据，利用有监督模型筛选出数据中包含问题答案的句子，并进行数据标注；深度学习模型构建，利用金融领域预训练的bert模型获取文字的向量表示，再通过自然语言处理法中注意力机制对数据和问题进行交互，得到计算机能够理解的融合向量表示；答案组织，对深度学习模型反馈的两条以上答案进行逻辑组合。
16.本发明实现上述目的的另一种技术解决方案是：金融舆情研报的机器阅读理解系统，其特征在于包括：数据制定与收集单元，用于对应金融垂直领域的需求，预定义用户的问题集，并搜集与问题集相关联的舆情数据；训练数据标注单元，用于通过关键词匹配从舆情数据中找出与预定义问题集中问题相贴切的数据，利用有监督模型筛选出数据中包含问题答案的句子，并进行数据标注；深度学习模型构建单元，用于利用金融领域预训练的bert模型获取文字的向量表示，再通过自然语言处理法中注意力机制对数据和问题进行交互，得到计算机能够理解的融合向量表示；答案组织单元，用于对深度学习模型反馈的两条以上答案进行逻辑组合。
17.应用本发明目标检测新的技术解决方案具备显著的进步性：该方法及系统利用了
高质量的标注数据的有监督模型，提高了机器阅读理解的准确率；对于上千字的输入数据，缩短处理速率至500ms/次，更侧重于判断搜集所得的数据中是否有可用于回答问题的内容点，并利用较小的代价能达到专家规则式问答的效果。
附图说明
18.图1为典型机器阅读理解系统的拓扑示意图。
19.图2为本发明机器阅读理解方法的主要步骤示意图。
20.图3为本发明机器阅读理解方法的细化流程示意图。
具体实施方式
21.以下便结合附图对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握，从而对本发明的保护范围做出更为清晰的界定。
22.本发明针对当前机器阅读理解的技术发展水平及其无法满足金融领域相关需求的不足现状，创新提出了一种基于有监督深度学习算法的金融领域机器阅读理解方法及系统，以解决金融领域机器阅读理解准确性、实用性不足，效率低的问题该金融领域机器阅读理解方法如图2所示，主要分为数据制定与收集、训练数据标注、深度学习模型构建、答案组织四个主要步骤。而细化的流程实施结构如图3所示。
23.各步骤概括理解来看，其中数据指定与收集指的是针对金融垂直领域的需求，预先定义出用户可能会问到的问题，并通过设置与提问量相关的筛选阈值筛选出重点问题和普通问题两部分，同时通过网络爬虫搜索问题相关的新闻、研究报告等舆情数据。
24.其中训练数据标注指的是通过关键词匹配从搜集到的舆情数据找出与预定义重点问题相贴切的数据，并交付进行人工标注。
25.其中深度学习模型构建指的是对于准备好的训练数据，要构建一个合适且能解决上述问题的模型。传统机器学习模型并不能很好地处理这样的文档数据，需要大规模参数和结构的深度学习模型来处理。本方案首先利用金融领域预训练所得的bert（bidirectional encoder representations from transformers）模型来获取文字的向量表示，该模型的特点是针对金融领域的文字处理效果较好，且模型较小，效率高；其次通过自然语言处理技术中的注意力机制（attention）对数据和重点问题进行交互，得到计算机能够理解的融合向量表示。
26.利用上述深度学习模型（有监督作用）的稳定性能够筛选出数据中包含所有重点问题答案的句子。值得注意的是，当某条数据中没有有关重点问题的答案，则会将对应的文章标注为零答案集合“noanswer”，即为无标签数据，这是能起到识别回答不出的问题的关键所在。由于此步骤对深度学习模型的影响很大，所以对数据的标注结果还需要人工筛查，以免出现错误。
27.其中答案组织指的是针对已搭建好的舆情数据库和已训练好的深度学习模型，由于模型的任务是阅读理解，即输入一条（数据、问题）这种形式的输入，返回一个答案。这种形式并不符合人类评论或总结的直觉，需要制定一个答案组织策略，将多条答案有逻辑地组合起来。更具体的答案组织流程为：ⅰ、在一种以上关键词文本相似度匹配算法中选择一种，用于召回任一问题的前十条数据；ⅱ、对前十条所述数据逐一通过所构建的深度学习模
型询问对应问题的所有子问题或关键词，取得每条数据对应所有子问题的最佳答案；ⅲ、将子问题的答案进行最优排序，并与召回数据的排序相对照；ⅳ、以其中一个子问题的前两个非空答案的拼接结果，作为最终答案中对应子问题的组成部分。由此通过逻辑组织后所得的答案将更适合人类的阅读观感。
28.上述关键词文本相似度匹配算法具有多样性选择的可能，而且基于用户咨询的问题词向量，舆情数据所包含的文章词向量集合，其中d表示召回的文章数量，k表示词向量维度。
29.可选的关键词文本相似度匹配算法包括：1、计算欧式距离：；2、计算余弦距离：；3、计算杰卡德相似系数：，其中q表示问题的原本文字、p表示文章的原本文字；4、皮尔森相关系数：。
30.与上述机器阅读理解方法相对应地，该系统实现是通过对计算机程序化改造实现的。具体程序化所形成的系统架构主体上包括以下四个部分：数据制定与收集单元，用于对应金融垂直领域的需求，预定义用户的问题集，并搜集与问题集相关联的舆情数据；通过计算机的手动输入接口，将用户就金融领域相关的问题输入后台数据库并格式化存储，而且还可以设有筛选阈值，用于对所预定义的问题集筛选重点问题和普通问题。；并通过网络输入接口，访问互联网云数据，搜集与问题集相关联的各种资讯信息、研究报告，以逐条数据（长短不一）的形式存储于单独的数据库之中。
31.训练数据标注单元，用于通过关键词匹配从舆情数据中找出与预定义问题集中重要问题相贴切的数据，利用有监督模型筛选出数据中包含问题答案的句子，并进行数据标注。这里通过该单元处理后的海量数据将被标注化分类，对后续深度学习模型的机器学习过程提供了更高细粒度的支持。
32.深度学习模型构建单元，其具体实现数据和问题交互的描述如下：该单元前一部分模块通过金融领域预训练的bert模型获取文字向量表示，包括输
入：用户咨询的问题；相关文章，其中是文章集合，；输出：问题词向量表示；文章词向量表示，其中是文章词向量集合，。
33.其过程为：初始化标志符[cls]、[sep]，并按如下程序流程执行：。
[0034]
该单元后一部分模块通过自然语言处理法中注意力机制对数据和问题进行交互，包括输入：bert的隐层输出；输出：文章中关于此问题的答案起始与终止位置。
[0035]
其过程为：获取前一部分模块的输出q、p，并按如下程序流程执行：。
[0036]
答案组织单元，用于对深度学习模型反馈的两条以上答案进行逻辑组合，具体逻辑组织过程省略赘述。而答案组织的结果则通过计算机对外输出的界面呈现。
[0037]
从更直观、具象化的实例来看：应用该金融舆情研报的机器阅读理解方法的计算机系统，当在问题输入程序中，输入“大盘涨跌情况”的一个问题。而通过互联网访问所能搜集到的舆情数据规模较大，由此通过“大盘”、“走势”、“涨跌”等关键词匹配算法，召回数据库中的十条最相关数据，将该十条数据分别于问题合并，当做所构建的深度学习模型进行机器阅读理解的数据输入，得到每条数据的答案。最后在利用答案组织接口将这些答案处理结合，得到适合人类阅读感观的最终答案。
[0038]
同理类似“金融网络安全”、“科创板股票动向”等问题，均适用于前一段所实例性描述的机器阅读理解方法运行实现。
[0039]
综上关于应用本发明金融舆情研报的机器阅读理解方法及系统结合图示的实施例详述可见，其具备突出的实质性特点和显著的进步性。该方法及系统利用了高质量的标注数据的有监督模型，提高了机器阅读理解的准确率；对于上千字的输入数据，缩短处理速率至500ms/次，更侧重于判断搜集所得的数据中是否有可用于回答问题的内容点，并利用较小的代价能达到专家规则式问答的效果。
[0040]
除上述实施例外，本发明还可以有其它实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明所要求保护的范围之内。

转载请注明原文地址:https://doc.8miu.com/read-1350071.html

专利

最新回复(0)