多模态和图结构特征学习网络的大五人格预测方法和装置

专利2026-04-05 6

本发明涉及人格预测，特别是指一种多模态和图结构特征学习网络的大五人格预测方法和装置。

背景技术：

1、如今，人类情感行为的自动分析越来越受到心理学、计算机视觉、语言学和其他相关学科研究人员的关注。在计算机视觉和情感计算领域，表观人格分析研究机器如何自动识别或合成人的人格。人格可以被定义为影响一个人的行为、情感、思维、动机和感觉模式特征的心理因素的组合，这些特征使不同的个体彼此区分开来。我们的个性和情绪对我们的生活有很大的影响，它们可以影响我们的行为、认知、心理健康、偏好、欲望和决定。

2、一些研究表明，人格对人们的决策也有重要影响，这会导致人们在思想、感觉和动机上的个体差异。依恋类型、决策类型与人格特征之间存在显著相关。此外，个性人格还与个人偏好的差异有关，比如人们在日常生活中的行为方式，以及用户对各种娱乐领域的偏好，包括书籍和电影。此外，自动检测一个人的人格特质的能力有许多重要的实际应用，如工作面试、推荐系统、社会关系、个人助理、购买行为、医疗保健和咨询、犯罪学、教育等。

3、现有主流的大五人格预测方法也主要是基于cnn架构。这些方法一般利用各种主流的预训练cnn模型，如vgg-16、resnet50、resnet101等，从图像中提取视觉特征，它仅仅可以将面部关键点的几何知识编码为个性人格表征。现有技术缺乏对重要的人脸面部几何结构特征进行全面的表观人格的分析探索。例如基于短视频的面部表情识别中不同帧之间的相关性以及基于面部运动单元的面部表情识别中不同动作单元之间的相关性。

技术实现思路

1、为了解决现有技术存在的缺乏对重要的人脸面部几何结构特征进行全面的表观人格的分析探索的技术问题，本发明实施例提供了一种多模态和图结构特征学习网络的大五人格预测方法及装置。所述技术方案如下：

2、一方面，提供了一种多模态和图结构特征学习网络的大五人格预测方法，该方法由多模态和图结构特征学习网络的大五人格预测设备实现，该方法包括：

3、s1：获取符合预设要求的短视频数据，从所述短视频数据提取图像序列、音频信号和音频转录后的文本；

4、s2：对所述图像序列进行预处理，得到第一帧人脸图像和场景图像序列；

5、s3：将所述第一帧人脸图像输入训练的人脸特征提取模型，得到静态人脸结构特征；

6、s4：将所述场景图像序列输入预训练的环境场景特征模型，得到动态环境场景时空特征；

7、s5：对所述音频信号进行预处理，得到预处理的音频信号；

8、s6：将所述预处理的音频信号输入预训练的音频特征模型，得到音频特征，所述预训练的音频特征模型是基于vggish cnn模型构建的；

9、s7：将所述音频转录后的文本输入预训练的文本类特征提取器，得到文本特征，所述预训练的文本类特征提取器是基于xml-roberta模型构建的；

10、s8：将所述静态人脸结构特征、动态环境场景时空特征、音频特征和文本特征进行特征融合，得到融合特征向量，将所述融合特征向量输入预训练的大五人格预测模型，得到大五人格的五种人格特质的预测值。

11、优选地,所述s2的对所述图像序列进行预处理，得到第一帧人脸图像和场景图像序列，包括：

12、s21：将所述图像序列的第一帧图像输入训练的人脸检测器模型，输出第一帧人脸图像，得到一张静态人脸图像；

13、s22：将所述一张静态人脸图像输入训练的人脸关键点检测器，检测所述一张静态人脸图像的113个人脸的关键点，得到关键点坐标信息；

14、s23：从所述113个人脸的关键点以及关键点坐标信息，定位左眼的中心点和右眼的中心点，获取一张静态人脸图像的左眼的中心点和右眼的中心点坐标；

15、s24：基于一张静态人脸图像的左眼和右眼的中心点坐标，完成对静态人脸图像的转正对齐，得到对齐后的静态人脸图像；

16、s25：将所述113个人脸的关键点进行和所述转正对齐的一致的旋转，得到旋转后的113个静态人脸图像的关键点；

17、s26：基于旋转后的113个静态人脸图像的关键点，从对齐后的静态人脸图像提取113个人脸的关键点的局部图像，所述局部图像为48×48×3的彩色图像；

18、s27：对关键点坐标信息进行归一化处理，得到处理后的关键点坐标信息。

19、优选地,所述s27的对关键点坐标信息进行归一化处理，得到处理后的关键点坐标信息，包括：

20、s271：基于公式(1)计算归一化因子：

21、

22、其中，s(x)是归一化因子，nle表示属于左眼的关键点的数量，nre表示属于右眼的关键点的数量，xj表示第j个关键点的坐标,xk表示第k个关键点的坐标，{left eye}是属于左眼的关键点，{right eye}是属于右眼的关键点；

23、s272：将归一化因子和关键点坐标信息输入公式(2)进行归一化处理，得到绝对坐标集：

24、ai＝xi/s(x)，with a∈rc×p (2)

25、其中，a是每个关键点的绝对坐标，s(x)是归一化因子，x表示每个关键点的坐标，c表示坐标维度，p表示关键点数量；

26、s273：基于公式(3)、(4)和(5)计算相对坐标集，得到处理后的关键点坐标信息：

27、ti＝ai-ac (3)

28、d＝max(‖ti‖2) (4)

29、ri＝ti/d with r∈rc×p (5)

30、其中，r是每个相对坐标，ac是所有关键点绝对坐标的均值，‖*‖2表示2范数。

31、优选地,在所述s3的将所述第一帧人脸图像输入训练的人脸特征提取模型，得到静态人脸结构特征之前,所述方法还包括：

32、s01：获取训练的人脸特征提取模型；

33、所述s01的获取训练的人脸特征提取模型，包括：

34、s011：构建一个gcn流模型，所述gcn流模型的输入为每个关键点的局部图像和处理后的关键点坐标信息，输出为人脸几何结构，所述gcn流模型包含cnn模型和gcn模型，所述gcn模型基于公式(6)提取人脸几何结构:

35、

36、其中，fgeo为输出的人脸几何结构，是相对坐标集和边组成的图结构，r是相对坐标集，e是边；

37、s012：构建一个cnn流模型，所述cnn流模型的输入为对齐后的第一人脸图像，输出为人脸外观图像，所述cnn流模型包含三个卷积模块、三个sa模块、两个下采样模块、cat模块和全连接层；

38、s013：构建一个串联模块，所述串联模块的输入是人脸几何结构和人脸外观图像，输出为静态人脸结构特征，所述静态人脸结构特征包含第一帧人脸外观和几何结构特征。

39、优选地,所述s4的将所述场景图像序列输入预训练的环境场景特征模型，得到动态环境场景时空特征，包括：

40、s41：初始化resnet18模型，并利用选定的数据集对所述resnet18模型进行训练，得到预训练的resnet18模型；

41、s42：依次把场景图像序列中的每一帧图像输入预训练的resnet18模型，得到环境场景特征序列；

42、s43：初始化bigru模型，将环境场景特征序列中的每个特征输入所述bigru模型，得到动态环境场景时空特征。

43、优选地,所述s5的对所述音频信号进行预处理，得到预处理的音频信号，包括：

44、s51：将所述音频信号重新采样为16khz单声道，得到单声道的音频信号；

45、s52：基于使用窗口大小为25ms、窗口跳跃为10ms以及周期性hann窗口的短时傅立叶变换幅度来计算所述单声道的音频信号的频谱图；

46、s53：将所述频谱图映射到覆盖125-7500hz范围的64个mel箱得到mel频谱图；

47、s54：通过log函数对mel频谱图的+0.01进行log变换，得到稳定的log-mel谱图；

48、s55：将稳定的log-mel谱图作为特征构建为0.96秒的非重叠示例，得到预处理的音频信号，所述非重叠示例覆盖64个mel频带和96个10ms的帧。

49、优选地,所述s8的将所述静态人脸结构特征、动态环境场景时空特征、音频特征和文本特征进行特征融合，得到融合特征向量，将所述融合特征向量输入预训练的大五人格预测模型，得到大五人格的五种人格特质的预测值，包括：

50、s81：所述静态人脸结构特征、动态环境场景时空特征、音频特征和文本特征进行多模态特征串联，形成融合特征向量；

51、s82：初始化多层感知机，所述多层感知机的输入是融合特征向量；

52、s83：通过3个线性层，将融合特征向量的特征维度映射成5维，得到大五人格的五种人格特质的预测值，所述3个线性层中前面2个线性层的激活函数均采用relu激活函数，在relu激活函数之后连接dropout层，在dropout层后连接sigmoid激活函数。

53、另一方面，提供了一种多模态和图结构特征学习网络的大五人格预测装置，该装置应用于多模态和图结构特征学习网络的大五人格预测方法，该装置包括：

54、短视频模块：用于获取符合预设要求的短视频数据，从所述短视频数据提取图像序列、音频信号和音频转录后的文本；

55、人脸图像模块：用于对所述图像序列进行预处理，得到第一帧人脸图像和场景图像序列；

56、人脸特征提取模块：用于将所述第一帧人脸图像输入训练的人脸特征提取模型，得到静态人脸结构特征；

57、环境场景特征模块：用于将所述场景图像序列输入预训练的环境场景特征模型，得到动态环境场景时空特征；

58、音频信号模块：用于对所述音频信号进行预处理，得到预处理的音频信号；

59、音频特征模块：用于将所述预处理的音频信号输入预训练的音频特征模型，得到音频特征，所述预训练的音频特征模型是基于vggish cnn模型构建的；

60、文本特征模块：用于将所述音频转录后的文本输入预训练的文本类特征提取器，得到文本特征，所述预训练的文本类特征提取器是基于xml-roberta模型构建的；

61、五种人格模块：用于将所述静态人脸结构特征、动态环境场景时空特征、音频特征和文本特征进行特征融合，得到融合特征向量，将所述融合特征向量输入预训练的大五人格预测模型，得到大五人格的五种人格特质的预测值。

62、另一方面，提供一种多模态和图结构特征学习网络的大五人格预测设备，所述多模态和图结构特征学习网络的大五人格预测设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述多模态和图结构特征学习网络的大五人格预测方法中的任一项所述的方法。

63、另一方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述多模态和图结构特征学习网络的大五人格预测方法中的任一项所述的方法。

64、本发明实施例提供的技术方案带来的有益效果至少包括：

65、本技术提供的技术方案是基于多模态和图结构特征学习网络的大五人格预测系统。本技术提出基于cnn架构和gcn架构双流的图结构特征学习网络从视觉模态中提取人脸外观和几何特征。同时，用预训练resnet18从视频中提取单帧环境场景特征并用bigru模型捕获动态环境场景时空特征。此外，还使用vggish cnn模型提取音频特征，使用预训练的xml-roberta模型提取音频转录的文本特征。最后，将多模态特征进行串联融合并送入mlp回归器进行最终的大五人格预测，可以大幅提高大五人格预测的准确性。

技术特征：

1.一种多模态和图结构特征学习网络的大五人格预测方法，其特征在于，包括：

2.根据权利要求1所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，所述s2的对所述图像序列进行预处理，得到第一帧人脸图像和场景图像序列，包括：

3.根据权利要求2所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，所述s27的对关键点坐标信息进行归一化处理，得到处理后的关键点坐标信息，包括：

4.根据权利要求1所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，在所述s3的将所述第一帧人脸图像输入训练的人脸特征提取模型，得到静态人脸结构特征之前,所述方法还包括：

5.根据权利要求1所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，所述s4的将所述场景图像序列输入预训练的环境场景特征模型，得到动态环境场景时空特征，包括：

6.根据权利要求1所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，所述s5的对所述音频信号进行预处理，得到预处理的音频信号，包括：

7.根据权利要求1所述的多模态和图结构特征学习网络的大五人格预测方法，其特征在于，所述s8的将所述静态人脸结构特征、动态环境场景时空特征、音频特征和文本特征进行特征融合，得到融合特征向量，将所述融合特征向量输入预训练的大五人格预测模型，得到大五人格的五种人格特质的预测值，包括：

8.一种多模态和图结构特征学习网络的大五人格预测装置，其特征在于，所述装置适用于上述权利要求1-7中任意一项所述的方法，装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述权利要求1至7中任意一项所述的方法。

技术总结
本发明提供一种多模态和图结构特征学习网络的大五人格预测方法和装置，应用于人格预测技术领域。所述方法包括:获取符合预设要求的短视频数据，从所述短视频数据提取图像序列、音频信号和音频转录后的文本，并分别输入训练的人脸特征提取模型、预训练的环境场景特征模型、预训练的音频特征模型和预训练的文本类特征提取器，分别得到静态人脸结构特征，动态环境场景时空特征、音频特征和文本特征，并进行特征融合，最后将融合特征向量输入训练的大五人格预测模型，得到大五人格的五种人格特质的预测值。本发明能够显著提高大五人格预测的准确性。

技术研发人员：王荣全,魏麟,马惠敏
受保护的技术使用者：北京科技大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828836.html

专利

最新回复(0)