一种基于AIGC的3D数字人驱动方法与流程

专利2026-02-04  7


本发明涉及数字人驱动,具体为一种基于aigc的3d数字人驱动方法。


背景技术:

1、生成式人工智能aigc(artificial intelligence generated content)是人工智能1.0时代进入2.0时代的重要标志。gan、clip、transformer、diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了aigc的爆发。算法不断迭代创新、预训练模型引发aigc技术能力质变,多模态推动aigc内容多边形,使得aigc具有更通用和更强的基础能力。从计算智能、感知智能再到认知智能的进阶发展来看,aigc已经为人类社会打开了认知智能的大门。通过单个大规模数据的学习训练,令ai具备了多个不同领域的知识,只需要对模型进行适当的调整修正,就能完成真实场景的任务。aigc把数据要素提到时代核心资源的位置,在一定程度上加快了整个社会的数字化转型进程。

2、随着人工智能技术的不断发展,虚拟数字人3.0也开始崭露头角。虚拟数字人3.0不再是由真人驱动的,而是由ai技术来驱动。通过ai技术,可以实现对文本、语音、图像等多模态信息的输入,然后通过深度学习等技术让虚拟数字人进行自然的语音播报、表情和动作行为等表演。在虚拟数字人3.0阶段,制作团队需要先对ai模型进行训练,然后将训练好的模型应用到虚拟数字人模型上。通过输入文本或语音信号,ai模型就可以驱动虚拟数字人进行表演。这种技术大大降低了制作成本和技术门槛,同时也可以实现更加智能化和个性化的表演。

3、即使是ai技术来驱动真人数字模型,也需要预先输入真人数字模型需要播报演示的信息,对于服务介绍类的工作,介绍的内容其实是比较固定的,还需要人为预先编排台词,无疑是比较繁琐的,针对这个问题,提供了一种基于aigc的3d数字人驱动方法。


技术实现思路

1、本发明的目的在于提供一种基于aigc的3d数字人驱动方法,以解决上述背景技术中提出的问题。为实现上述目的,本发明提供如下技术方案:一种基于aigc的3d数字人驱动方法,基于aicg的3d数字人驱动方法包括:

2、步骤一,数据收集,通过各种途径收集真实人类声音、外貌和动作等多维度数据;

3、步骤二,特征提取,对所述步骤一收集到的数据进行处理和分析,从中提取出有用的特征;

4、步骤三,模型训练,利用相应的算法模型,输入所述步骤二中所提取到的特征数据和预设的标签数据,经过算法模型的计算得到模型参数,从而完成对数据模型的训练;

5、步骤四,生成,利用所述步骤三中的算法模型处理新的数据生成新的结果;

6、步骤五,合成和渲染,将所述步骤四中生成的结果进一步的合成和渲染,形成最终的视听效果。

7、优选的,所述步骤三中的算法模型包括机器学习法以及对抗网络学习法。

8、优选的,所述机器学习法的方法包括:

9、步骤一,输入与数字人特征相关的数据,通过神经网络模型分析特征得到相应的映射关系;

10、步骤二,数据选择;

11、步骤三,数据分析,理解数据本身的内部结构以及规律;

12、步骤四,特征表示,图像或文本类数据转换为计算机课读取识别的数据形式;

13、步骤五,模型训练;

14、步骤六,模型评估以及优化;

15、步骤气,模型预测结构以及解释性,对模型预测信息分析解释并应用于实际的特征表示。

16、优选的,所述模型训练包括:

17、步骤一,构建模型结构,包括神经网络结构设计,激活函数的选择、模型权重初始化、网层标准化以及正则化策略的设定;

18、步骤二,模型编译,包括学习目标以及优化算法的设定;

19、步骤三,模型训练以及超参数的调试,包括划分数据集以及超参数调节训练。

20、优选的,所述超参数调试的数据包括验证集比例、batch size、单层神经元数、网络深度、选择激活函数类型、dropout率、选择损失函数类型、正则项惩罚系数、选择梯度算法类型以及初始学习率等。

21、优选的,所述模型训练前,用的holdout验证法(此外还有留一法、k折交叉验证等方法)把数据集分为训练集和测试集,并可再对训练集进一步细分为训练集和验证集,以方便评估模型的性能,①训练集:用于运行学习算法训练模型,②开发验证集(developmentset)用于调整模型超参数、earlystopping、选择特征等,以选择出合适模型,③测试集(test set)只用于评估已选择模型的性能,但不会据此改变学习算法或参数。

22、优选的,所述对抗网络学习法包括:

23、步骤一,将正态分布的噪声数据输入到网络中;

24、步骤二,噪声数据通过生成模型王阔生成的图像数据,从而生成模型有更好的效果;

25、步骤三,将生成模型输出的图片数据输入到判别模型网络中进行网络的参数计算得到最后的判别输出。

26、优选的,所述对抗网络训练学习法所用到的函数为:

27、

28、优选的,所述ex~pg[log(1-d(x))]是指使得数据放入到判别模型d(x)输出的计算值尽可能小和整个式子尽可能大,使得目标函数尽可能大,可根据目标函数进行梯度提升。

29、优选的,所述ex~pr[logd(x)]是指使得真实数据放入到判别模型d(x)输出的计算值和整个式子值尽可能大。

30、与现有技术相比,本发明的有益效果:

31、通过各种途径收集真实人类声音、外貌和动作等多维度数据,对所述步骤一收集到的数据进行处理和分析,从中提取出有用的特征,利用相应的算法模型,输入所述步骤二中所提取到的特征数据和预设的标签数据,经过算法模型的计算得到模型参数,从而完成对数据模型的训练,利用所述步骤三中的算法模型处理新的数据生成新的结果,将所述步骤四中生成的结果进一步的合成和渲染,形成最终的视听效果,解决了即使是ai技术来驱动真人数字模型,也需要预先输入真人数字模型需要播报演示的信息,对于服务介绍类的工作,介绍的内容其实是比较固定的,还需要人为预先编排台词,无疑是比较繁琐的问题。



技术特征:

1.一种基于aigc的3d数字人驱动方法,其特征在于,基于aicg的3d数字人驱动方法包括:

2.根据权利要求1所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述步骤三中的算法模型包括机器学习法以及对抗网络学习法。

3.根据权利要求2所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述机器学习法的方法包括:

4.根据权利要求3所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述模型训练包括:

5.根据权利要求4所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述超参数调试的数据包括验证集比例、batch size、单层神经元数、网络深度、选择激活函数类型、dropout率、选择损失函数类型、正则项惩罚系数、选择梯度算法类型以及初始学习率等。

6.根据权利要求4所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述模型训练前,用的holdout验证法(此外还有留一法、k折交叉验证等方法)把数据集分为训练集和测试集,并可再对训练集进一步细分为训练集和验证集,以方便评估模型的性能,①训练集:用于运行学习算法训练模型,②开发验证集(development set)用于调整模型超参数、earlystopping、选择特征等,以选择出合适模型,③测试集(test set)只用于评估已选择模型的性能,但不会据此改变学习算法或参数。

7.根据权利要求2所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述对抗网络学习法包括:

8.根据权利要求7所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述对抗网络训练学习法所用到的函数为:

9.根据权利要求8所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述ex~pg[log(1-d(x))]是指使得数据放入到判别模型d(x)输出的计算值尽可能小和整个式子尽可能大,使得目标函数尽可能大,可根据目标函数进行梯度提升。

10.根据权利要求8所述的一种基于aigc的3d数字人驱动方法,其特征在于:所述ex~pr[logd(x)]是指使得真实数据放入到判别模型d(x)输出的计算值和整个式子值尽可能大。


技术总结
本发明涉及数字人驱动技术领域,具体为一种基于AIGC的3D数字人驱动方法,包括步骤一,数据收集,通过各种途径收集真实人类声音、外貌和动作等多维度数据;步骤二,特征提取,对所述步骤一收集到的数据进行处理和分析,从中提取出有用的特征;步骤三,模型训练,利用相应的算法模型,输入所述步骤二中所提取到的特征数据和预设的标签数据,经过算法模型的计算得到模型参数,从而完成对数据模型的训练。该基于AIGC的3D数字人驱动方法解决了即使是AI技术来驱动真人数字模型,也需要预先输入真人数字模型需要播报演示的信息,对于服务介绍类的工作,介绍的内容其实是比较固定的,还需要人为预先编排台词,无疑是比较繁琐的问题。

技术研发人员:李秋实,许轲扬,姜三富,李圣京,吴功令
受保护的技术使用者:联通沃音乐文化有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/index.php/read-1827071.html

最新回复(0)