一种辩证知识迁移学习方法、装置、电子设备及存储介质

专利2025-08-03  32


本发明涉及人工智能,具体而言,涉及一种辩证知识迁移学习方法、装置、电子设备及存储介质。


背景技术:

1、近年来,随着深度学习技术的飞速发展,诸如gpt等大模型在自然语言问答等领域取得了显著成就。但是在实际应用中,单一的大语言模型在面对诸如视觉问答这类多模态问答时的局限性也随之浮现。在此背景下,将多模态数据整合到一个统一模型中的mllm(multi-modal large language model,多模态大语言模型)应运而生,而基于mllm的智能体也在多模态问答任务的推理中也表现出了巨大的潜力。

2、然而,现有的智能体通常由于其自回归训练机制和训练数据同质等问题,在多模态问答任务的推理过程中往往会出现幻觉(如智能体输出内容与提问内容明显不匹配或逻辑错误),导致现有的智能体在处理多模态问答任务时的可靠性较差,阻碍了其实际落地应用。


技术实现思路

1、本发明解决的问题是如何提高智能体处理多模态问答任务的可靠性。

2、为解决上述问题,本发明提供一种辩证知识迁移学习方法,包括如下步骤:

3、步骤一:构建任务数据库,其中,所述任务数据库中包括多个多模态问答任务;

4、步骤二:利用多个预设的第一智能体针对未处理过的所述多模态问答任务进行多角度决策,当每个所述第一智能体输出的决策信息满足预设置信条件时,将每个所述决策信息整合成辩证知识,其中,所述多角度决策包括独立决策和/或交互决策;

5、步骤三:返回所述步骤二直至遍历所述任务数据库中的所有所述多模态问答任务,得到多个所述辩证知识,并构建辩证知识库;

6、步骤四:基于所述辩证知识库训练预设的第二智能体,得到目标智能体。

7、可选地,所述决策信息包括推理结果;所述步骤二包括:

8、利用每个所述第一智能体针对未处理过的所述多模态问答任务进行所述独立决策,得到每个所述决策信息;

9、判断每个所述决策信息是否满足所述预设置信条件,其中,所述预设置信条件包括每个所述第一智能体最近一次输出的所述推理结果一致;

10、若是,则将每个所述决策信息整合成所述辩证知识;

11、若否,则基于每个所述第一智能体最近一次输出的所述决策信息得到参考决策信息,且令每个所述第一智能体基于所述参考决策信息进行所述交互决策后输出所述决策信息,并返回所述判断每个所述决策信息是否满足所述预设置信条件的步骤。

12、可选地,所述决策信息还包括推理过程;所述预设置信条件还包括:

13、每个所述决策信息对应的所述推理过程与所述推理结果相匹配。

14、可选地,所述步骤二还包括:

15、当进行所述交互决策的次数超过预设次数阈值时,将每个所述决策信息整合成所述辩证知识。

16、可选地,在所述构建辩证知识库之后,还包括:

17、提取所述辩证知识库中每个所述辩证知识对应的总结信息,其中,所述总结信息包括每个所述第一智能体最后一次输出的最终的推理结果;

18、基于所述总结信息和预设过滤策略对所述辩证知识进行过滤。

19、可选地,所述基于所述总结信息和预设过滤策略对所述辩证知识进行过滤,包括:

20、当所述总结信息中每个所述最终的推理结果不一致时,剔除所述总结信息对应的所述辩证知识;和/或,

21、当所述总结信息中每个所述最终的推理结果一致,且所述最终的推理结果的数量与预设推理结果数量不相同时,剔除所述总结信息对应的所述辩证知识;和/或,

22、当所述总结信息中每个所述最终的推理结果一致,且预设推理结果集中未包含所述最终的推理结果时,剔除所述总结信息对应的所述辩证知识。

23、可选地,所述步骤四包括:

24、从每个所述辩证知识中提取出与所述最终的推理结果相匹配的所述决策信息,得到辩证链,并将所述辩证链与所述辩证知识对应的所述多模态问答任务进行关联,得到训练数据库;

25、利用所述训练数据库训练所述第二智能体,得到所述目标智能体。

26、本发明中任务数据库中包括多个多模态问答任务,基于此得到的辩证知识库有利于提高目标智能体处理复杂的多模态问答任务的能力。在利用多个预设的第一智能体针对多模态问答任务进行多角度决策的过程中,当每个第一智能体输出的决策信息满足预设置信条件时,再将每个决策信息整合成辩证知识,一方面有利于确保辩证知识的可靠性,另一方面使得辩证知识能够涵盖不同的第一智能体在面对多模态问答任务时所持有的不同“观点”(即决策信息),确保辩证知识的全面性。其中,多角度决策包括独立决策和/或交互决策,当多个第一智能体进行独立决策后即可满足预设置信条件时,将每个决策信息整合成辩证知识,在确保决策信息可靠性的同时,还能提高获取辩证知识的效率。而本发明中多个智能体之间进行交互决策有利于彼此纠正推理过程中出现的错误。因此,当直接令多个第一智能体进行交互决策,或者当多个第一智能体进行独立决策后无法满足预设置信条件时,令多个第一智能体进行交互决策,有利于提高每个第一智能体对应输出决策信息的准确性。由此,针对每个多模态问答任务都能得到全方位、多角度且可靠性强的辩证知识。在此基础上,遍历任务数据库得到多个辩证知识,并基于构建的辩证知识库训练预设的第二智能体,得到目标智能体,相当于将基于多个第一智能体得到的多角度辩证知识赋予目标智能体,使得单一的目标智能体能够具备多个第一智能体之间共同协作时(即独立决策和/或交互决策)才能具备的“辩证决策”能力。有效降低了单个目标智能体在进行复杂的多模态问答任务推理时出现幻觉的概率,缩小了单个目标智能体独立推理能力与多个第一智能体联合推理能力的差距,提高了目标智能体处理多模态问答任务的可靠性。

27、本发明还提供一种辩证知识迁移学习装置,包括:

28、任务构建模块,其用于构建任务数据库,其中,所述任务数据库中包括多个多模态问答任务;

29、知识生成模块,其用于利用多个预设的第一智能体针对未处理过的所述多模态问答任务进行多角度决策,当每个所述第一智能体输出的决策信息满足预设置信条件时,将每个所述决策信息整合成辩证知识,其中,所述多角度决策包括独立决策和/或交互决策;

30、循环遍历模块,其用于返回利用多个所述第一智能体针对未处理过的所述多模态问答任务进行所述多角度决策的步骤直至遍历所述任务数据库中的所有所述多模态问答任务,得到多个所述辩证知识,并构建辩证知识库;

31、迁移学习模块,其用于基于所述辩证知识库训练预设的第二智能体,得到目标智能体。

32、本发明提供的辩证知识迁移学习装置与所述辩证知识迁移学习方法相较于现有技术的优势基本相同,在此不再赘述。

33、本发明还提供一种电子设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如上所述的辩证知识迁移学习方法。

34、本发明提供的电子设备与所述辩证知识迁移学习方法相较于现有技术的优势基本相同,在此不再赘述。

35、本发明还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的辩证知识迁移学习方法。

36、本发明提供的计算机可读存储介质与所述辩证知识迁移学习方法相较于现有技术的优势基本相同,在此不再赘述。


技术特征:

1.一种辩证知识迁移学习方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的辩证知识迁移学习方法,其特征在于,所述决策信息包括推理结果;所述步骤二包括:

3.根据权利要求2所述的辩证知识迁移学习方法,其特征在于,所述决策信息还包括推理过程;所述预设置信条件还包括:

4.根据权利要求2所述的辩证知识迁移学习方法,其特征在于,所述步骤二还包括:

5.根据权利要求2所述的辩证知识迁移学习方法,其特征在于,在所述构建辩证知识库之后,还包括:

6.根据权利要求5所述的辩证知识迁移学习方法,其特征在于,所述基于所述总结信息和预设过滤策略对所述辩证知识进行过滤,包括:

7.根据权利要求6所述的辩证知识迁移学习方法,其特征在于,所述步骤四包括:

8.一种辩证知识迁移学习装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如权利要求1至7任一项所述的辩证知识迁移学习方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至7任一项所述的辩证知识迁移学习方法。


技术总结
本发明提供了一种辩证知识迁移学习方法、装置、电子设备及存储介质,涉及人工智能领域。该方法包括:构建任务数据库;利用多个第一智能体针对未处理过的多模态问答任务进行多角度决策,当每个第一智能体输出的决策信息满足预设置信条件时,将每个决策信息整合成辩证知识;返回多角度决策的步骤直至遍历任务数据库中所有多模态问答任务,得到多个辩证知识并构建辩证知识库;基于辩证知识库训练预设的第二智能体,得到目标智能体。本发明通过多个第一智能体进行多角度决策得到全面且可靠的辩证知识,并基于辩证知识库训练第二智能体,有效降低了单个目标智能体在进行复杂推理时出现幻觉的概率,提高单一的目标智能体处理多模态问答任务的可靠性。

技术研发人员:王好天,闫莲,余伟江,李雪,姜京池,关毅
受保护的技术使用者:哈尔滨工业大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1823418.html

最新回复(0)