本发明涉及自然语言处理,特别涉及一种基于元数据特征和思维链的多表关联大语言模型问答方法。
背景技术:
1、目前对多表查询模型的相关概述中,传统或先进模型主要依赖深度学习范畴内的模型,譬如图形神经网络(gnn)模型以及irnet模型等等。尽管这些方法在解决某些问题方面表现出色,但它们在某种程度上忽略了查询与数据库表格之间的明确关联,以及在应对条件值提取与数据库架构编码等领域的不足。除此之外,这些策略通常只关注单一任务或单一关系类型,而无法在多任务与多关系类型场景中发挥良好作用。因此,在面对多表查询状况时,传统方法仍受制于一些限制和挑战。
2、text2sql是一种自然语言处理(nlp)任务,旨在将自然语言问题转化为结构化查询语言(sql)查询。该任务的目标是让计算机能够理解用户提出的问题,并根据问题生成相应的sql查询以从数据库中检索所需的信息。
3、在text2sql任务中,输入是一个自然语言问题,而输出是一个sql查询语句,该查询语句可以直接在数据库中执行以获取答案。这种技术在信息检索、数据库查询和对话系统等领域具有广泛的应用。
4、在复杂数据库系统中,多表查询场景是指在一个查询语句中需要涉及到多个数据库表进行联合查询以获取所需信息的情况。在处理多表查询时,无论是涉及多个数据库连接还是仅限于单个数据库环境,本质上都可以将问题归约为多个数据库表之间的连接问题。这样一来,研究人员可以在一个统一的框架下研究多表查询,从而提高查询生成算法的通用性和可扩展性,从而解决text2sql任务,以在多个表之间建立正确的连接并获取所需结果。
5、常见的text2sql方法包括:
6、基于规则的方法:使用手工设计的规则和模板来将自然语言问题转换为sql查询语句。
7、基于统计的方法:利用统计模型和机器学习算法来学习自然语言问题和sql查询之间的映射关系。
8、基于神经网络的方法:使用深度学习模型(如循环神经网络、注意力机制和转换器)来学习自然语言和sql查询之间的语义映射。
9、但是,上述现有方法对多表查询在text2sql任务中的应用仍存在难点与挑战。
10、因此,如何提供一种提高大模型有关多表场景下筛选表格的性能的基于元数据特征和思维链的多表关联大语言模型问答方法是本领域技术人员亟待解决的技术问题。
技术实现思路
1、本发明针对上述研究现状和存在的问题,提供了一种提出了基于元数据特征和思维链的多表关联大模型问答方法,以提高大模型有关多表场景下筛选表格的性能。
2、本发明提供的一种基于元数据特征和思维链的多表关联大语言模型问答方法,包括如下步骤:
3、数据表预处理:对多个数据表进行数据规范化处理,并建立数据表之间的关联;
4、建立元数据文档:提取数据表的元数据特征获得元数据文档,包括字段信息和键连接关系;
5、构建思维链:基于数据表字段信息之间的关联关系构建问答思维链;
6、构建prompt提示模板:基于所述问答思维链构造choose-prompt选择提示以及generate-prompt生成提示;其中,
7、choose-prompt选择提示用于根据用户问题结合元数据文档筛选出相关表格;generate-prompt生成提示用于接收所述相关表格对应的元数据文档内容结合用户问题,生成prompt提示;
8、问答预测:接收用户问题,利用prompt提示模板生成prompt提示,将所述prompt提示输入至预训练的大语言模型,生成对应的sql语句。
9、优选的,所述对多个数据表进行数据规范化处理包括如下步骤中的一种或多种的组合:
10、数据清洗:包括对缺失值、重复值和异常值中一项或多项的规范化处理;
11、数据集成:将不同数据表中的相关数据进行合并;
12、数据变换:统一不同数据表的数据格式并进行标准化处理,从数据表中提取特征。
13、优选的,所述字段信息包括:数据表的名称、数据表中的实体字段和实体字段对应的属性字段。
14、优选的,所述提取数据表的元数据特征还包括如下步骤:
15、对提取的字段信息进行含义标注;
16、识别并获取字段信息的数据类型,并对相同类别字段信息的数据类型进行规范统一;
17、识别并获取数据表之间的主键-外键关系;
18、将提取的字段信息、字段含义、数据类型和主键-外键关系进行整合,获得元数据文档。
19、优选的,所述构建思维链包括如下步骤:
20、构建数据表间的实体字段关联推理过程模型;
21、构建数据表间实体字段对应的属性字段关联推理过程模型;
22、构建业务规则和逻辑,包括整合设定业务领域下的规则和逻辑关系,将其融入到实体字段关联推理过程模型和属性字段关联推理过程模型中。
23、优选的,所述generate-prompt生成提示包括提示字段、用于输入卡槽和输出卡槽;用于执行如下步骤:
24、通过向输入卡槽中填充筛选出的表格信息、转换语言格式、用户问题,引导大语言模型生成相应的sql语句。
25、本发明提出的基于元数据特征和思维链的多表关联大语言模型问答方法相较现有技术具有以下有益效果:
26、本发明对nlp任务进行解析和理解,确定问题所涉及的多个表格以及它们之间的关系。对每个涉及到的表格进行理解,了解表格之间的关联性是解决多表查询的关键。根据问题和表格之间的关系,确定需要进行连接的表格以及连接条件,可以根据主键外键关系或其他共同属性进行表格连接操作。根据数据库表格问答思维链实现过程分别构造choose-prompt选择提示以及generate-prompt生成提示,其中choose-prompt选择提示引导大模型根据用户提问从数据库中筛选出相关表格,generate-prompt生成提示旨在通过向卡槽中填充入筛选出的表格信息、转换语言格式、问题等关键信息,进而引导模型生成对应的sql语句,执行后返回结果。
27、本发明在面对多表查询状况时,能充分挖掘表格数据信息之间的关联,提高表格筛选的准确度,从而引导模型生成相应的sql语句,提升回答问题的准确度。
1.一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于,所述对多个数据表进行数据规范化处理包括如下步骤中的一种或多种的组合:
3.根据权利要求1所述的一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于,所述字段信息包括:数据表的名称、数据表中的实体字段和实体字段对应的属性字段。
4.根据权利要求1所述的一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于,所述提取数据表的元数据特征还包括如下步骤:
5.根据权利要求1所述的一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于,所述构建思维链包括如下步骤:
6.根据权利要求1所述的一种基于元数据特征和思维链的多表关联大语言模型问答方法,其特征在于,所述生成提示包括提示字段、用于输入卡槽和输出卡槽;用于执行如下步骤: