基于多梯队生成模型的AI生成内容质量评测模型训练方法与流程

专利2026-03-05  8


本发明涉及人工智能ai以及人工智能背景下的评测,尤其涉及一种基于多梯队生成模型的ai生成内容质量评测模型训练方法及系统。


背景技术:

1、随着人工智能算法、算力和算据的不断发展,生成式人工智能(generativeartificial intelligence)取得突破性进展,使得人工智能生成内容(ai generatedcontent,aigc)得以实现。以gpt4为代表的自然语言大模型展现出强大的自然语言加工、荟萃、整合和生成能力。同时以生成式对抗网络(generative adversarial networks,gans)模型、diffusion扩散化模型为代表的生成式人工智能在图像、音频、视频领域表现出优异的内容合成、修复、预测和生成性能,引发当前网络信息环境下aigc的爆炸式增长。

2、和ai创作方法方式的迅猛发展相比,对于ai生产内容的评价方式却没有很大的进步。使用ai生成内容和现实已有内容作比较是最早期的做法。还是以ai作画为例,把文本对应的现实照片和使用该文本ai生成的图片相比,计算差距就是这种评价方法。这种方法在早期ai生图内容质量不高的时候非常有用,因为当时ai生成的图片和现实照片越相近就说明生成质量越好。但当ai生成的图片质量达到一定程度以后,和现实图片的计算差距的这种方法往往限制了创作力,因为现实中的某张图肯定不是该文本的唯一解。令人惊艳的ai生成图片往往和现有照片的差距很大,所以这种方法不太适合评价富有创作力的图片。

3、近期的ai作图论文中开始大量采用人工标注的方法来评价生成图片的好坏。由于人工标注的情况下,看一张图并标注图片质量分数的难度高,标注一致性低,所以论文中采取了相对评价的方案,即看两张图让标注人判断哪张图的更好。虽然这种相对评价方案解决了标注难度和数据一致性问题,但由于标注次数的增加,标注效率也随之降低了。尤其在需要大量比较的时候人工标注更是需要大量的时间去进行重复性的标注。并且相对评价标注一致性已经比绝对评价的标注一致性要高,但不同的标注人员的标注一致性还是影响评测结果可信度的重要障碍,往往需要更多更精细的标注来缓解一致性差的问题。

4、目前现有技术中已经可以用于测评ai生成内容质量的ai检测工具,例如,文心ernie-vilg文本生成图像的能力在开放领域公开数据集ms-coco上进行了验证。评估指标使用fid(该指标数值越低效果越好),在zero-shot和finetune两种方式下进行评估,图像生成文本能力上,文心ernie-vilg在coco-cn、aic-icc两个公开中文图片标题生成数据集上进行评测。然而评测必须借助大量的已标注样本进行模型训练后进行,评测效果不佳,并且无法实现生成模型和评测模型的自我优化迭代,与快速发展的aigc技术和内容生成方式无法匹配。

5、因此,存在寻找更加公正、有效和普适的基于多梯队生成模型的ai生成内容质量评测模型训练方法及系统,同时解决ai生成内容的可解释性和可控制性的问题,此外还要面对和解决人工智能伦理问题。


技术实现思路

1、为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于多梯队生成模型的ai生成内容质量评测模型训练方法及系统,利用先验知识把多个ai生成模型分成多个梯队,并利用多个梯队之间的关系来进行评测ai生成模型的训练;具体的,通过假定ai生成模型的质量与其所处的梯队有直接关系,比如,高级梯队的生成模型生成的内容应该被评为高质量,即产生的内容质量更高,而低级梯队生成的内容则应被评为低质量,即低级梯队的ai生成模型产生的内容质量相对较低,从而免去大量的人工标注的同时,可以让ai生成内容质量评测模型更好地理解生成内容的复杂性和多样性。方法和系统可以在不用人工标注的数据的情况下训练ai生成内容质量评测模型,并使ai生成内容质量评测模型更好地理解ai生成内容的复杂性和多样性。

2、本发明一方面提供了一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其中所述ai生成内容质量评测模型用于对ai生成模型的性能优劣进行评测,包括:

3、s1,获取多个已经训练好的ai生成模型,基于先验知识将多个ai生成模型划分为多个梯队,所述多个梯队具有不同的级别,所述级别与所述ai生成模型的ai生成内容质量关联;

4、s2,确定待训练的ai生成内容质量评测模型并基于多个梯队内的多个已经训练好的ai生成模型对所述ai生成内容质量评测模型进行训练;其中训练后的所述ai生成内容质量评测模型能够评测所述ai生成模型的生成内容的质量,并且能够区分不同梯队的ai生成模型。

5、优选的,所述先验知识包括获取的多个所述ai生成模型的综合生成能力;其中:

6、根据ai生成模型在某个具体任务上的表现确定综合生成能力;或者根据ai生成模型的复杂性和参数量确定所述综合生成能力。

7、优选的,所述s1包括:

8、所述梯队包括三个级别,分别为高级梯队、中级梯队和低级梯队;所述综合生成能力包括三个级别,分别为高级综合生成能力、中级综合生成能力和低级综合生成能力;具有高级综合生成能力、中级综合生成能力或低级综合生成能力的ai生成模型分别被划分到高级梯队、中级梯队和低级梯队。

9、优选的,所述s2包括:

10、s21,基于多个梯队内的多个已经训练好的ai生成模型实时生成海量训练样本;具体的,所述多个已经训练好的ai生成模型针对多个不同的输入任务生成对应的输出生成内容,多个输入任务和输出生成内容构成多个训练样本;所述海量训练样本为针对所述多个梯队中的不同梯队的ai生成模型所输入的同样的对齐数据;或者为针对所述多个梯队中的不同梯队的ai生成模型所输入的不同的数据以泛化不同梯队的多样性;

11、s22,基于所述多个训练样本训练所述ai生成内容质量评测模型;包括:对于每一个生成的训练样本,所述ai生成内容质量评测模型根据所述输出生成内容的质量评测预测并确定所述训练样本的生成对应所属的梯队和/或对应所述梯队的对应所属的ai生成模型;计算预测准确度,其中,所述预测准确度基于假定ai生成模型的质量与其所处的梯队有直接关系进行计算;

12、s23,当所述预测准确度未达到准确度阈值,重复s21-s22,基于预测准确度迭代纠偏、优化、记忆以及反向传播优化进行迭代训练,直至所述ai生成内容质量评测模型根据生成内容的质量来区分不同梯队的生成模型的预测准确度达到准确度阈值。

13、优选的,基于所述多个训练样本训练所述ai生成内容质量评测模型包括基于来自单一梯队的训练样本训练所述ai生成内容质量评测模型;或同时基于来自所有梯队的训练样本训练所述ai生成内容质量评测模型。

14、优选的,所述s2还包括:

15、s24,基于多个梯队内的多个已经训练好的ai生成模型生成多个测试样本并集合形成测试数据集;基于所述测试数据集对所述ai生成内容质量评测模型进行评估,以确定所述ai生成内容质量评测模型的准确性。

16、优选的,所述s2还包括:

17、s25,基于所述评估结果,对所述ai生成内容质量评测模型进行调整和优化,以提高其性能。

18、本发明的第二方面在于提供一种基于多梯队生成模型的ai生成内容质量评测模型训练系统,其中所述ai生成内容质量评测模型用于对ai生成模型的性能优劣进行评测,包括:

19、多梯队模型生成模块,用于获取多个已经训练好的ai生成模型,基于先验知识将多个ai生成模型划分为多个梯队,所述多个梯队具有不同的级别,所述级别与所述ai生成模型的ai生成内容质量关联;

20、ai生成内容质量评测模型训练模块,用于确定待训练的ai生成内容质量评测模型并基于多个梯队内的多个已经训练好的ai生成模型对所述ai生成内容质量评测模型进行训练;其中,训练后的所述ai生成内容质量评测模型能够评测所述ai生成模型的生成内容的质量,并且能够区分不同梯队以及同一梯队内的ai生成模型。

21、本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。

22、本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。

23、本发明提供的基于ai生成内容质量评测的ai评测方法、系统和电子设备,具有如下有益效果:

24、利用先验知识把多个ai生成模型分成多个梯队,并利用多个梯队之间的关系来进行评测ai生成模型的训练。比如,高级梯队的模型生成的内容应该被评为高质量,低级梯队生成的内容则应被评为低质量,从而在免去大量的人工标注的同时,可以让ai生成内容质量评测模型更好地理解生成内容的复杂性和多样性。方法和系统可以在不用人工标注的数据的情况下训练ai生成内容质量评测模型,并使ai生成内容质量评测模型更好地理解ai生成内容的复杂性和多样性。


技术特征:

1.一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其中所述ai生成内容质量评测模型用于对ai生成模型的性能优劣进行评测,其特征在于,包括:

2.根据权利要求1所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,所述先验知识包括获取的多个所述ai生成模型的综合生成能力;其中:

3.根据权利要求2所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,所述s1包括:

4.根据权利要求3所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,所述s2包括:

5.根据权利要求4所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,基于所述多个训练样本训练所述ai生成内容质量评测模型包括基于来自单一梯队的训练样本训练所述ai生成内容质量评测模型;或同时基于来自所有梯队的训练样本训练所述ai生成内容质量评测模型。

6.根据权利要求5所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,所述s2还包括:

7.根据权利要求6所述的一种基于多梯队生成模型的ai生成内容质量评测模型训练方法,其特征在于,所述s2还包括:

8.一种基于多梯队生成模型的ai生成内容质量评测模型训练系统,用于实施权利要求1-7任一所述的基于多梯队生成模型的ai生成内容质量评测模型训练方法,其中所述ai生成内容质量评测模型用于对ai生成模型的性能优劣进行评测,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7任一所述的基于多梯队生成模型的ai生成内容质量评测模型训练方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7任一所述的基于多梯队生成模型的ai生成内容质量评测模型训练方法。


技术总结
本发明一种基于多梯队生成模型的AI生成内容质量评测模型训练方法,属于人工智能技术领域。方法包括:获取多个已经训练好的AI生成模型,基于先验知识将多个AI生成模型划分为多个梯队,多个梯队具有不同的级别,级别与AI生成模型的AI生成内容质量关联;确定待训练的AI生成内容质量评测模型并基于多个梯队内的多个已经训练好的AI生成模型对AI生成内容质量评测模型进行训练;训练后的AI生成内容质量评测模型能够评测AI生成模型的生成内容的质量,并且能够区分不同梯队的AI生成模型。本发明在不用人工标注的数据的情况下训练AI生成内容质量评测模型,并使其更好地理解AI生成内容的复杂性和多样性。

技术研发人员:玄日成,杨熙,秦博文,何哲琪,胡思宇,尹芳
受保护的技术使用者:北京智源人工智能研究院
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1828516.html

最新回复(0)