本公开涉及计算机视觉领域,尤其涉及一种基于微调标准模型的三维姿态估计方法、装置及存储介质。
背景技术:
1、在视频信息中理解人类行为是计算机视觉领域的一个重要研究方向,它对于人机交互、智能监控、虚拟现实等应用具有重要意义。为了引导机器更好地理解人类行为,研究者们提出了多种方法,如对人类行为进行分类、三维姿态估计(包括估计人类的骨骼关键点)以及估计人体表面蒙皮等。其中,三维的骨骼关键点估计是关键步骤,因为它可以为表面蒙皮估计和行为分类提供更准确的引导。
2、三维的骨骼关键点一般通过深度神经网络进行估计,在过去的研究中,研究者们已经提出了许多结构特异的深度神经网络模型来估计视频中的人体三维骨骼关键点,如长短期记忆网络(long short-term memory network,lstm)、卷积神经网络(convolutionalneural network,cnn)、扩散模型(英文:diffusion model)以及基于注意力的变换网络(英文:transformer)结构的神经网络等。这些方法在定性层面上已经取得了较好的估计结果,具有较好的时空一致性,符合一般的人类行为逻辑。
3、然而,由于单目视频输入信息的限制,目前的方法在定量方面往往难以达到测量意义上的精确度。这是因为单目信息不包含足够的空间信息,使得神经网络难以仅通过估计来准确预测出图像中的空间信息。因此,如何实现更精确的三维姿态估计,相关技术中尚未提供一种合理且有效的方法。
技术实现思路
1、有鉴于此,本公开提出了一种基于微调标准模型的三维姿态估计方法、装置及存储介质。
2、根据本公开的一方面,提供了一种基于微调标准模型的三维姿态估计方法,所述方法包括:
3、获取目标数据,所述目标数据包括同步的视频数据和惯性测量单元(inertialmeasurement unit,imu)数据,所述视频数据包括目标对象的视觉信息,所述imu数据包括通过imu测量得到的所述目标对象的惯性信息;
4、根据所述视频数据,通过二维姿态估计得到二维骨骼点序列,所述二维骨骼点序列包括所述目标对象的多个骨骼关键点的二维坐标数据;
5、根据所述imu数据,通过运动学计算得到标准骨骼点序列,所述标准骨骼点序列包括标准的所述目标对象的多个骨骼关键点的三维坐标数据;
6、根据所述二维骨骼点序列和所述标准骨骼点序列,确定三维骨骼点序列,所述三维骨骼点序列包括预测的所述目标对象的多个骨骼关键点的三维坐标数据。
7、在一种可能的实现方式中,所述根据所述二维骨骼点序列和所述标准骨骼点序列,确定三维骨骼点序列,包括:
8、提取所述二维骨骼点序列对应的第一骨骼特征和所述标准骨骼点序列对应的第二骨骼特征;
9、将所述第一骨骼点特征和所述第二骨骼点特征进行特征融合,得到目标骨骼点特征;
10、根据所述目标骨骼点特征,确定所述三维骨骼点序列。
11、在另一种可能的实现方式中,所述将所述第一骨骼点特征和所述第二骨骼点特征进行特征融合,得到目标骨骼点特征,包括:
12、将所述第一骨骼点特征和所述第二骨骼点特征进行拼接得到拼接特征;
13、将所述拼接特征进行加权计算并映射到二维空间中,得到所述目标骨骼点特征;
14、所述根据所述目标骨骼点特征,确定所述三维骨骼点序列,包括:
15、将所述目标骨骼点特征通过多层感知机(multilayer perceptron,mlp)回归到三维空间中,得到所述三维骨骼点序列。
16、在另一种可能的实现方式中,所述imu数据包括多帧的imu数据,所述根据所述imu数据,通过运动学计算得到标准骨骼点序列,包括:
17、根据每帧所述imu数据,通过运动学计算得到每帧的标准骨骼点信息,每帧的所述标准骨骼点信息包括每帧的标准的所述目标对象的多个骨骼关键点的三维坐标数据;
18、将每帧的所述标准骨骼点信息进行组合,得到所述标准骨骼点序列。
19、在另一种可能的实现方式中,所述根据每帧所述imu数据,通过运动学计算得到每帧的标准骨骼点信息,包括:
20、根据每帧所述imu数据,确定每帧的所述目标对象的多个骨骼关键点的关节角;
21、根据每帧的所述目标对象的多个骨骼关键点的关节角,确定每帧的所述标准骨骼点信息。
22、在另一种可能的实现方式中,所述根据所述视频数据,通过二维姿态估计得到二维骨骼点序列,包括:
23、将所述视频数据转换为多帧的二维图像;
24、根据每帧所述二维图像,通过二维姿态估计得到每帧的二维骨骼点信息,每帧的所述二维骨骼点信息包括每帧的所述目标对象的多个骨骼关键点的二维坐标数据;
25、将每帧的所述二维骨骼点信息进行组合,得到所述二维骨骼点序列。
26、在另一种可能的实现方式中,所述方法还包括:
27、根据所述三维骨骼点序列和标签骨骼点序列,确定损失值,所述标签骨骼点序列包括基准的所述目标对象的多个骨骼关键点的三维坐标数据,所述损失值用于指示所述三维骨骼点序列和损失标签骨骼点序列之间的差异。
28、在另一种可能的实现方式中,所述目标数据还包括与所述视频数据和所述imu数据同步的动作捕捉数据,所述根据所述三维骨骼点序列和标签骨骼点序列,确定损失值之前,还包括:
29、根据所述动作捕捉数据确定所述标签骨骼点序列,所述动作捕捉数据包括通过动作捕捉设备捕获的所述目标对象的动作信息。
30、根据本公开的另一方面,提供了一种基于微调标准模型的三维姿态估计装置,所述装置包括:
31、获取模块,用于获取目标数据,所述目标数据包括同步的视频数据和imu数据,所述视频数据包括目标对象的视觉信息,所述imu数据包括通过imu测量得到的所述目标对象的惯性信息;
32、估计模块,用于根据所述视频数据,通过二维姿态估计得到二维骨骼点序列,所述二维骨骼点序列包括所述目标对象的多个骨骼关键点的二维坐标数据;
33、计算模块,用于根据所述imu数据,通过运动学计算得到标准骨骼点序列,所述标准骨骼点序列包括标准的所述目标对象的多个骨骼关键点的三维坐标数据;
34、确定模块,用于根据所述二维骨骼点序列和所述标准骨骼点序列,确定三维骨骼点序列,所述三维骨骼点序列包括预测的所述目标对象的多个骨骼关键点的三维坐标数据。
35、在一种可能的实现方式中,所述确定模块,还用于:
36、提取所述二维骨骼点序列对应的第一骨骼特征和所述标准骨骼点序列对应的第二骨骼特征;
37、将所述第一骨骼点特征和所述第二骨骼点特征进行特征融合,得到目标骨骼点特征;
38、根据所述目标骨骼点特征,确定所述三维骨骼点序列。
39、在另一种可能的实现方式中,所述确定模块,还用于:
40、将所述第一骨骼点特征和所述第二骨骼点特征进行拼接得到拼接特征;
41、将所述拼接特征进行加权计算并映射到二维空间中,得到所述目标骨骼点特征;
42、将所述目标骨骼点特征通过mlp回归到三维空间中,得到所述三维骨骼点序列。
43、在另一种可能的实现方式中,所述计算模块,还用于:
44、根据每帧所述imu数据,通过运动学计算得到每帧的标准骨骼点信息,每帧的所述标准骨骼点信息包括每帧的标准的所述目标对象的多个骨骼关键点的三维坐标数据;
45、将每帧的所述标准骨骼点信息进行组合,得到所述标准骨骼点序列。
46、在另一种可能的实现方式中,所述计算模块,还用于:
47、根据每帧所述imu数据,确定每帧的所述目标对象的多个骨骼关键点的关节角;
48、根据每帧的所述目标对象的多个骨骼关键点的关节角,确定每帧的所述标准骨骼点信息。
49、在另一种可能的实现方式中,所述估计模块,还用于:
50、将所述视频数据转换为多帧的二维图像;
51、根据每帧所述二维图像,通过二维姿态估计得到每帧的二维骨骼点信息,每帧的所述二维骨骼点信息包括每帧的所述目标对象的多个骨骼关键点的二维坐标数据;
52、将每帧的所述二维骨骼点信息进行组合,得到所述二维骨骼点序列。
53、在另一种可能的实现方式中,所述装置还包括:损失确定模块,用于:
54、根据所述三维骨骼点序列和标签骨骼点序列,确定损失值,所述标签骨骼点序列包括基准的所述目标对象的多个骨骼关键点的三维坐标数据,所述损失值用于指示所述三维骨骼点序列和损失标签骨骼点序列之间的差异。
55、在另一种可能的实现方式中,所述目标数据还包括与所述视频数据和所述imu数据同步的动作捕捉数据,所述装置还包括:标签确定模块,用于:
56、根据所述动作捕捉数据确定所述标签骨骼点序列,所述动作捕捉数据包括通过动作捕捉设备捕获的所述目标对象的动作信息。
57、根据本公开的另一方面,提供了一种基于微调标准模型的三维姿态估计装置,包括:
58、处理器;
59、用于存储处理器可执行指令的存储器;
60、其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述的方法。
61、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的方法。
62、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在计算设备的处理器中运行时,所述计算设备中的处理器执行上述方法。
63、本公开实施例提供了一种基于微调标准模型的三维姿态估计方法,通过获取同步的视频数据和惯性测量单元imu数据,根据视频数据通过二维姿态估计得到二维骨骼点序列,根据imu数据通过运动学计算得到标准骨骼点序列,根据二维骨骼点序列和标准骨骼点序列,最终确定预测的三维骨骼点序列,也就是说,在输入的信息仅能提供有限的空间信息的情况下引入人类先验的人体骨骼约束,即将单纯的imu数据转变成具有明确物理意义且与目标相关性更高的标准骨骼点序列,在不增加网络推理负担,不显著增加网络参数量的情况下,为模型补充空间信息,通过结合视频数据和imu数据来提升三维姿态估计的准确性。
64、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
1.一种基于微调标准模型的三维姿态估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述二维骨骼点序列和所述标准骨骼点序列,确定三维骨骼点序列,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述第一骨骼点特征和所述第二骨骼点特征进行特征融合,得到目标骨骼点特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述imu数据包括多帧的imu数据,所述根据所述imu数据,通过运动学计算得到标准骨骼点序列,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据每帧所述imu数据,通过运动学计算得到每帧的标准骨骼点信息,包括:
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述目标数据还包括与所述视频数据和所述imu数据同步的动作捕捉数据,所述根据所述三维骨骼点序列和标签骨骼点序列,确定损失值之前,还包括:
8.一种基于微调标准模型的三维姿态估计装置,其特征在于,所述装置包括:
9.一种基于微调标准模型的三维姿态估计装置,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。