本发明涉及一种基于检索增强生成的高分子材料表征转换方法,属于材料和计算机领域。
背景技术:
1、高分子材料表征转换指实现smiles分子式和高分子材料描述文本之间的互相转换。这极大的缩短了高分子材料发现的流程,还提高了转换性能和数据利用率。
2、传统的高分子材料表征转换方法都是基于预训练加微调的方式,即先预训练一个在高分子材料表征领域的专业模型,然后用表征转换任务进一步微调。然而,这类方法存在材料表征空间有限,耗费计算资源以及泛化性低等问题。
3、检索增强生成是大语言模型的衍生技术,该技术借助上下文学习使得大语言模型可以快速地转换到从未见过的任务上。从元优化器的角度来看,基于检索增强生成的方法被视为一种隐式的微调过程,其性能与经过微调后的模型相近。因此,将检索参数生成与高分子材料表征转换相结合,能够有效突破预训练加微调的范式。此外,大语言模型能够为高分子材料提供更加广泛的表征空间并提供高度泛化能力。
技术实现思路
1、本发明提供一种基于检索增强生成的高分子材料表征转换方法,将检索增强生成与高分子材料表征转换相结合,增强材料表征空间,减少计算资源以及提高模型泛化性。
2、本发明是采用以下技术方案实现的:
3、一种基于检索增强生成的高分子材料表征转换方法,包括以下步骤:
4、s100、定义测试数据集知识库混合检索系数ω1=0.5,ω2=0.5,大语言模型提示工程模版h(x,smi_caps),校准器q(x;regex),摩根指纹相似度morgan(x,smi),bge相似度beg(x,smi|cap),bm25相似度bm25(x,cap),检索数量topn;
5、s200、针对测试数据集中的每一个输入x,遍历知识库中的每一个样本,计算与输入x之间的混合相似度;
6、s300、将s200中计算得到的相似度进行排序,并从中选取相似度最高的topn个示例样本smi_caps;
7、s400、输入x和smi_caps一同嵌入提示工程模版h(x,smi_caps)得到x′;
8、s500、将输入x′送入大语言模型中进行推理并由校准器q(x;regex)对输出进行校准,最终得到输出y。
9、优选地,所述步骤s200中,若当前任务是分子生成任务,即由高分子材料描述文本生成smiles分子式,输入x表示的是高分子材料描述文本;若当前任务是分子概括任务,即由smiles分子式生成高分子材料描述文本,输入x表示的是smiels分子式。
10、优选地,所述步骤s200中,当输入x表示的是smiles分子式时,步骤s200具体包括以下步骤:
11、s201、定义数组examles=[]用于存放知识库中每一个示例样本的混合相似度;
12、s202、使用morgan(x,smi)计算摩根指纹相似度morgan_score;
13、s203、使用bge(x,smi)计算bge相似度bge_score;
14、s204、将morgan_score和bge_score分别乘上混合检索系数得到混合相似度score,如下式所示:
15、score=ω1×morgan_score+ω2×bge_score
16、s205、将score加入数组examples中。
17、优选地,所述步骤s200中,当输入x表示的是高分子材料描述文本时,步骤s200中的以下步骤将被替换:
18、s202、使用bm25(x,cap)计算bm25相似度bm25_score;
19、s203、使用bge(x,cap)计算bge相似度bge_score;
20、s204、将bm25_score和bge_score分别乘上混合检索系数得到混合相似度score,如下式所示:
21、score=ω1×bm25_score+ω2×bge_score。
22、优选地,所述步骤s202中,摩根指纹会先将smiles分子式转换问指纹向量,并使用dice相似度得到摩根指纹相似度,如下式所示:
23、
24、式中,a和b表示的是两种分子的指纹向量,|a|和|b|分别表示指纹a和b的化学片段数量,|a∩b|则表示两种指纹中共同出现的化学片段的数量,dice系数的范围是0到1,0值表示分子之间相似性很低,1则表示很高。
25、优选地,所述步骤s202中,bm25用于计算分子描述文本之间的相似度,如下式所示:
26、
27、式中,d是文档,q是查询,qi表示查询q中第i个词,f(qi,d)是词qi在文档d中的频率,|d|是文档d的长度,avgdl是文档集合中文档的平均长度,k1和b是可调参数,k1表示词频饱和度,b控制长度归一化的程度,idf(qi)是词qi的逆文档频率。
28、优选地,所述步骤s203中,bge是一个中英文语义向量模型,可将各种数据(分子描述文本、smiles分子式)转化为向量,并使用向量之间的距离来衡量数据之间的相似度。
29、优选地,所述步骤s203中,采用经过线性变换的余弦相似度来衡量bge向量之间的相似度,如下式所示:
30、
31、式中,a和b是由bge向量模型输出的两个向量,·表示向量之间的点积,||a||和||b||分别表示向量a和b的欧式范数。
32、优选地,所述步骤s400中,提示工程模版h(x,smi_caps)包括三个部分:任务描述、示例和输出指导,任务描述明确大模型的角色,进而详细说明其需要完成的具体任务;示例部分为大语言模型提供了具体的示例,它们是切实可行的分子-描述对。输出指导确保大语言模型的输出规范。
33、优选地,所述步骤s500中,大语言模型使用的是通义千问-7b,其在处理英文、编码、数学问题以及长序列评估方面展示了卓越的性能,校准器q(x;regex)采用基于匹配的方式对大语言模型的输出进行校准。
34、有益效果:本发明实现了基于检索增强生成的高分子材料表征转换方法在高分子材料表征转换上的应用,突破了传统的基于预训练加微调的范式,保证了表征转换的精度,具体表现如下:
35、(1)借助大语言模型的强大泛化能力,为分子提供了一个更全面的上下文分子表征空间,在面对从未见过的分子时,依然可以提供较为准确的性能以及泛化性;
36、(2)基于检索增强生成的思路,突破了预训练加微调的范式,极大的缩短了高分子材料表征转换的流程,减少计算资源的消耗;
37、(3)基于混合检索的检索方式相较于单一的检索方式能够为输入提供更全面的分子表征空间,增强了表征转换的性能。
1.一种基于检索增强生成的高分子材料表征转换方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s200中,若当前任务是分子生成任务,即由高分子材料描述文本生成smiles分子式,输入x表示的是高分子材料描述文本;若当前任务是分子概括任务,即由smiles分子式生成高分子材料描述文本,输入x表示的是smiels分子式。
3.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s200中,当输入x表示的是smiles分子式时,步骤s200具体包括以下步骤:
4.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,步所述骤s200中,当输入x表示的是高分子材料描述文本时,步骤s200中的以下步骤将被替换:
5.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s202中,摩根指纹会先将smiles分子式转换问指纹向量,并使用dice相似度得到摩根指纹相似度,如下式所示:
6.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s202中,bm25用于计算分子描述文本之间的相似度,如下式所示:
7.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s203中,bge是一个中英文语义向量模型,可将各种数据(分子描述文本、smiles分子式)转化为向量,并使用向量之间的距离来衡量数据之间的相似度。
8.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s203中,采用经过线性变换的余弦相似度来衡量bge向量之间的相似度,如下式所示:
9.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s400中,提示工程模版h(x,smi_caps)包括三个部分:任务描述、示例和输出指导,任务描述明确大模型的角色,进而详细说明其需要完成的具体任务;示例部分为大语言模型提供了具体的示例,它们是切实可行的分子-描述对。输出指导确保大语言模型的输出规范。
10.根据权利要求1所述的一种基于检索增强生成的高分子材料表征转换方法,其特征在于,所述步骤s500中,大语言模型使用的是通义千问-7b,其在处理英文、编码、数学问题以及长序列评估方面展示了卓越的性能,校准器q(x;regex)采用基于匹配的方式对大语言模型的输出进行校准。