基于多模态大模型的信息处理方法、装置、设备及介质与流程

专利2026-03-05 36

本发明涉及人工智能，尤其涉及一种基于多模态大模型的信息处理方法、装置、设备及介质。

背景技术：

1、随着人工智能技术的不断发展，多模态大模型的应用也越来越广泛。多模态大模型是指将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。

2、在实际应用中，多模态大模型可以对不同类型的输入信息进行处理，得到相适配的输出信息。现有技术中，用户可以根据实际的模型应用场景对经过预训练的多模态大模型适应性改进，以满足实际场景下的输入输出信息需求。

3、但是，由于多模态大模型的复杂性，模型改进过程往往需要额外引入其他的复杂模型进行联合使用，才能对实际场景下的输入输出信息进行有效处理。这会额外引入复杂模型的训练工作量，使得实际的模型训练成本以及部署成本升高，模型推理速度也会相应受到影响。

技术实现思路

1、本发明提供了一种基于多模态大模型的信息处理方法、装置、设备及介质，低成本的实现对多模态大模型的有效改进，满足实际场景中的输入输出信息需求。

2、根据本发明实施例的一方面，提供了一种基于多模态大模型的信息处理方法，包括：

3、将目标处理信息输入至预训练的通用多模态大模型中，其中，目标处理信息中仅包含文本信息，或者，同时包含文本信息和图像信息；

4、根据通用多模态大模型中的文本模型输出层针对所述文本信息的输出结果，确定任务文本描述信息，并将任务文本描述信息输入至决策模型中，获取目标处理信息的任务类型；

5、如果确定任务类型为文本输出任务，则获取通用多模态大模型针对目标处理信息输出的文本输出结果；

6、如果确定任务类型为图片输出任务，则将目标处理信息和任务类型共同输入至图片生成模型中，并获取图片生成模型输出的图片输出结果。

7、根据本发明实施例的另一方面，还提供了一种基于多模态大模型的信息处理装置，包括：

8、信息输入模块，用于将目标处理信息输入至预训练的通用多模态大模型中，其中，目标处理信息中仅包含文本信息，或者，同时包含文本信息和图像信息；

9、任务类型获取模块，用于根据通用多模态大模型中的文本模型输出层针对所述文本信息的输出结果，确定任务文本描述信息，并将任务文本描述信息输入至决策模型中，获取目标处理信息的任务类型；

10、文本输出结果获取模块，用于如果确定任务类型为文本输出任务，则获取通用多模态大模型针对目标处理信息输出的文本输出结果；

11、图片输出结果获取模块，用于如果确定任务类型为图片输出任务，则将目标处理信息和任务类型共同输入至图片生成模型中，并获取图片生成模型输出的图片输出结果。

12、根据本发明实施例的另一方面，提供了一种电子设备，所述电子设备包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的基于多模态大模型的信息处理方法。

16、根据本发明实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于多模态大模型的信息处理方法。

17、本发明实施例的技术方案，通过将目标处理信息输入至预训练的通用多模态大模型中；根据通用多模态大模型中的文本模型输出层针对文本信息的输出结果，确定任务文本描述信息，并将任务文本描述信息输入至决策模型中，获取目标处理信息的任务类型；如果确定任务类型为文本输出任务，则获取通用多模态大模型针对目标处理信息输出的文本输出结果；如果确定任务类型为图片输出任务，则将目标处理信息和任务类型共同输入至图片生成模型中，并获取图片生成模型输出的图片输出结果的技术手段，直接利用通用多模态大模型中的文本模型输出层的输出结果和通过简单训练得到的决策模型，即可准确定位任务类型，进而通过使用该任务类型，能够高效、准确的确定出最终的多模态输出结果，不再需要额外训练复杂模型进行输入输出信息的处理，有效降低大模型改进过程中带来的模型训练成本以及部署成本，低成本的实现了对多模态大模型的有效改进，满足实际场景中的输入输出信息需求。

18、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种基于多模态大模型的信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据通用多模态大模型中的文本模型输出层针对所述文本信息的输出结果，确定任务文本描述信息，包括：

3.根据权利要求1所述的方法，其特征在于，将目标处理信息和任务类型共同输入至图片生成模型中，并获取图片生成模型输出的图片输出结果，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述任务类型包括：图片问答任务、图片生成任务和图片编辑任务；

6.根据权利要求5所述的方法，其特征在于，获取与每个任务类型分别对应的决策模型训练数据集包括：

7.根据权利要求3所述的方法，其特征在于，所述决策模型中包含的模型参数的数量值小于标准决策模型中包含的标准模型参数的数量值；和/或

8.一种基于多模态大模型的信息处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于多模态大模型的信息处理方法。

技术总结
本发明公开了一种基于多模态大模型的信息处理方法、装置、设备及介质。该方法包括：将目标处理信息输入至预训练的通用多模态大模型中；根据通用多模态大模型中的文本模型输出层针对文本信息的输出结果，确定任务文本描述信息，并将任务文本描述信息输入至决策模型中，获取目标处理信息的任务类型；如果确定任务类型为文本输出任务，则获取通用多模态大模型针对目标处理信息输出的文本输出结果；如果确定任务类型为图片输出任务，则将目标处理信息和任务类型共同输入至图片生成模型中，并获取图片生成模型输出的图片输出结果。本发明实施例的技术方案有效降低大模型改进过程中带来的模型训练成本和部署成本，满足实际场景中的输入输出信息需求。

技术研发人员：顾涛,徐余浩,陈伟锋
受保护的技术使用者：上海智臻智能网络科技股份有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828493.html

专利

最新回复(0)