图像生成方法及装置、电子设备和存储介质与流程

专利2026-02-20 18

本公开涉及计算机，尤其涉及一种图像生成方法及装置、电子设备和存储介质。

背景技术：

1、文本生图(text to image generation)是指使用人工智能技术将文本转换为图像的过程。这种技术可以根据给定的输入文本描述，由计算机模型输出符合语义描述的真实图像。并且，这种技术的应用范围非常广泛，如虚拟现实、游戏开发、医疗图像分析、广告创意等。随着人工智能技术的高速发展，文本生成图像平台在降低创作门槛、提高服务的便捷度、增强生成图像画质等方面，仍有巨大的提升空间。

技术实现思路

1、本公开提出了一种图像生成技术方案。

2、根据本公开的一方面，提供了一种图像生成方法，包括：根据插件模型矩阵，为输入文本确定融合插件模型，所述插件模型矩阵包括n个训练好的插件模型，n为大于1的整数，所述融合插件模型是基于所述输入文本从所述插件模型矩阵中匹配出的m个插件模型的融合结果，m为大于1且小于n的整数；将所述输入文本输入包含所述融合插件模型的图像生成模型，生成所述输入文本的描述图像。

3、在一种可能的实现方式中，所述方法还包括：获取插件模型矩阵，其中，所述获取插件模型矩阵，包括：获取训练数据集，所述训练数据集包括多个样本数据，每个样本数据包括由样本图像和文本描述构成的图文对数据；对所述训练数据集进行聚类处理，得到n个训练数据子集；根据n个训练数据子集，对待训练的插件模型进行训练，得到插件模型矩阵。

4、在一种可能的实现方式中，对所述训练数据集进行聚类处理，得到n个训练数据子集，包括：对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据的特征向量；对所述训练数据集中每个样本数据的特征向量进行聚类处理，得到n个特征向量簇，以及每个特征向量簇的中心向量，所述中心向量用于指示所述特征向量簇的中心；根据n个特征向量簇以及每个特征向量簇的中心向量，确定n个训练数据子集，以及每个训练数据子集对应的中心向量。

5、在一种可能的实现方式中，每个插件模型对应有中心向量，所述中心向量是训练得到所述插件模型的训练数据子集对应的中心向量，所述根据插件模型矩阵，为输入文本确定融合插件模型，包括：对所述输入文本进行特征提取，确定目标向量；根据所述目标向量与每个中心向量的相似度，从n个中心向量中匹配出m个中心向量；从所述插件模型矩阵中，确定与所述m个中心向量对应的m个插件模型；对所述m个插件模型进行加权求和处理，得到融合插件模型。

6、在一种可能的实现方式中，所述对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据的特征向量，包括：获取预先训练好的特征提取模型，所述特征提取模型用于将图像和文本映射至共享的特征空间；根据所述特征提取模型，对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据中样本图像的特征向量；

7、在一种可能的实现方式中，所述对所述输入文本进行特征提取，确定目标向量，包括：获取预先训练好的特征提取模型，所述特征提取模型用于将图像和文本映射至共享的特征空间；根据所述特征提取模型，对所述输入文本进行特征提取，确定目标向量。

8、在一种可能的实现方式中，每个训练好的插件模型由一个不同的训练数据子集训练所得，所述插件模型的训练过程包括：根据待训练的插件模型和预先训练好的底模型，得到第一模型；将所述训练数据子集中每个样本数据的文本描述，输入第一模型，得到预测图像；在所述第一模型中所述底模型的参数保持不变的情况下，根据所述预测图像与所述样本数据中样本图像的损失，对所述第一模型中所述插件模型进行训练，得到训练好的插件模型。

9、在一种可能的实现方式中，获取训练数据集，包括：获取原始训练数据集；对所述原始训练数据集进行去重处理，得到去重训练数据集；根据预先训练好的筛选模型，对去重训练数据集进行筛选，得到训练数据集。

10、根据本公开的一方面，提供了一种图像生成装置，包括：确定模块，用于根据插件模型矩阵，为输入文本确定融合插件模型，所述插件模型矩阵包括n个训练好的插件模型，n为大于1的整数，所述融合插件模型是基于所述输入文本从所述插件模型矩阵中匹配出的m个插件模型的融合结果，m为大于1且小于n的整数；生成模块，用于将所述输入文本输入包含所述融合插件模型的图像生成模型，生成所述输入文本的描述图像。

11、在一种可能的实现方式中，所述装置还包括获取模块：用于获取插件模型矩阵，其中，所述获取模块用于：获取训练数据集，所述训练数据集包括多个样本数据，每个样本数据包括由样本图像和文本描述构成的图文对数据；对所述训练数据集进行聚类处理，得到n个训练数据子集；根据n个训练数据子集，对待训练的插件模型进行训练，得到插件模型矩阵。

12、在一种可能的实现方式中，对所述训练数据集进行聚类处理，得到n个训练数据子集，包括：对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据的特征向量；对所述训练数据集中每个样本数据的特征向量进行聚类处理，得到n个特征向量簇，以及每个特征向量簇的中心向量，所述中心向量用于指示所述特征向量簇的中心；根据n个特征向量簇以及每个特征向量簇的中心向量，确定n个训练数据子集，以及每个训练数据子集对应的中心向量。

13、在一种可能的实现方式中，所述确定模块用于：在每个插件模型对应有中心向量，所述中心向量是训练得到所述插件模型的训练数据子集对应的中心向量的情况下，对所述输入文本进行特征提取，确定目标向量；根据所述目标向量与每个中心向量的相似度，从n个中心向量中匹配出m个中心向量；从所述插件模型矩阵中，确定与所述m个中心向量对应的m个插件模型；对所述m个插件模型进行加权求和处理，得到融合插件模型。

14、在一种可能的实现方式中，所述对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据的特征向量，包括：获取预先训练好的特征提取模型，所述特征提取模型用于将图像和文本映射至共享的特征空间；根据所述特征提取模型，对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据中样本图像的特征向量；

15、在一种可能的实现方式中，所述对所述输入文本进行特征提取，确定目标向量，包括：获取预先训练好的特征提取模型，所述特征提取模型用于将图像和文本映射至共享的特征空间；根据所述特征提取模型，对所述输入文本进行特征提取，确定目标向量。

16、在一种可能的实现方式中，每个训练好的插件模型由一个不同的训练数据子集训练所得，所述插件模型的训练过程包括：根据待训练的插件模型和预先训练好的底模型，得到第一模型；将所述训练数据子集中每个样本数据的文本描述，输入第一模型，得到预测图像；在所述第一模型中所述底模型的参数保持不变的情况下，根据所述预测图像与所述样本数据中样本图像的损失，对所述第一模型中所述插件模型进行训练，得到训练好的插件模型。

17、在一种可能的实现方式中，获取训练数据集，包括：获取原始训练数据集；对所述原始训练数据集进行去重处理，得到去重训练数据集；根据预先训练好的筛选模型，对去重训练数据集进行筛选，得到训练数据集。

18、根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

19、根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

20、在本公开实施例中，可根据插件模型矩阵，为输入文本确定融合插件模型，所述融合插件模型是基于所述输入文本从所述插件模型矩阵中匹配出的至少一个插件模型的融合结果；将所述输入文本输入包含所述融合插件模型的图像生成模型，生成所述输入文本的描述图像。通过这种方式，可以根据用户输入的文本描述，从获取的插件模型矩阵中自适应地动态挑选出符合文本描述要求的多个插件模型，并对选中的多个插件模型进行融合处理，得到融合插件模型，包含该融合插件模型的图像生成模型可完成各种各样的文本生成图像任务，支持用户自由地使用任意文本描述进行创作，省去了用户从大量插件模型中进行挑选所耗费的精力，大幅改善生成图像的质量。

21、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

技术特征：

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取插件模型矩阵，其中，所述获取插件模型矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，对所述训练数据集进行聚类处理，得到n个训练数据子集，包括：

4.根据权利要求1所述的方法，其特征在于，每个插件模型对应有中心向量，所述中心向量是训练得到所述插件模型的训练数据子集对应的中心向量，所述根据插件模型矩阵，为输入文本确定融合插件模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述训练数据集进行特征提取，确定所述训练数据集中每个样本数据的特征向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述输入文本进行特征提取，确定目标向量，包括：

7.根据权利要求2-6中任一项所述的方法，其特征在于，每个训练好的插件模型由一个不同的训练数据子集训练所得，所述插件模型的训练过程包括：

8.一种图像生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

技术总结
本公开涉及一种图像生成方法及装置、电子设备和存储介质，所述方法包括：根据插件模型矩阵，为输入文本确定融合插件模型，该融合插件模型是基于输入文本从插件模型矩阵中匹配出的至少一个插件模型的融合结果；将输入文本输入包含融合插件模型的图像生成模型，生成输入文本的描述图像。本公开实施例可实现各种各样的文本生成图像任务，支持用户自由地使用任意文本描述进行创作，省去了用户从大量插件模型中进行挑选所耗费的精力，大幅改善生成图像的质量。

技术研发人员：请求不公布姓名
受保护的技术使用者：摩尔线程智能科技（北京）有限责任公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827859.html

专利

最新回复(0)