背景技术:
1、本公开的各方面涉及机器学习,并且更具体地涉及使用人工神经网络来处理视频内容。
2、在各种情况下,人工神经网络可用于处理视频内容,诸如标识所捕获的视频内容中的对象,估计在视频内容中检测到的人的姿态,或者对视频内容进行语义分割,以及基于标识所捕获的视频内容中的对象来执行各种操作。例如,在自主车辆应用中,人工神经网络可用于标识自主车辆正在行进的路径中的障碍物或其他对象,并且对这些障碍物或对象的标识可用于控制车辆以便避免与这些障碍物或对象碰撞(例如,通过绕过这些障碍物、在与对象碰撞之前停车等)。在监控应用中,人工神经网络可用于检测监控环境中的运动。
3、一般而言,可根据空间维度和时间维度来定义视频内容。可基于在视频内容中的给定空间位置处检测到的像素值的变化来在时间维度上检测随时间的运动。例如,背景内容可在时间维度上保持静态或基本上静态;然而,当(非伪装的)对象在时间维度上移动时,这些对象的空间位置可以改变。因此,进入某个区域的运动可被可视化为从静态像素值到与对象相关联的像素值的变化;同样,区域外的运动可被可视化为从与对象相关联的像素值到不同像素值(例如,对应于背景值)的变化。
4、可使用各种类型的神经网络来处理视觉内容,诸如视频内容。例如,可使用卷积神经网络或变压器神经网络(例如,检测变压器(″detr″)或滑动窗口(″swin″)变压器)来检测视觉内容中的对象,在语义上将视觉内容分割成不同部分(例如,前景片段和背景片段、静态片段和非静态片段等),以及/或者预测视觉内容中的对象的未来运动(例如,对多关节对象执行姿态预测)。然而,这些神经网络可在每个图像的基础上处理视觉内容,并且可能不考虑视觉内容中的冗佘(例如,空间上或时间上),这可能是对计算资源(例如,处理器循环、存储器等)的低效使用。
5、因此,需要的是用于视频内容中的对象检测的改进的技术。
技术实现思路
1、某些方面提供一种用于使用机器学习模型检测数据流中的对象的方法。一种示例方法一般包括从该数据流的第一片段提取第一特征以及从该数据流的第二片段提取第二特征。将该第一特征和该第二特征级联成该数据流的该第一片段和该数据流的该第二片段的组合表示。从该数据流的该第一片段和该数据流的该第二片段的该组合表示中标识未改变的内容和改变的内容。基于所标识的未改变的内容和所标识的改变的内容,从该第一特征和该第二特征生成针对该数据流的该第二片段的特征输出。使用变压器神经网络,基于针对该数据流的该第二片段的该特征输出标识该数据流中的多个对象。基于标识该数据流中的该多个对象采取一个或多个动作。
2、某些方面提供了一种使用机器学习模型处理视频流的方法。一种示例方法一般包括从该视频流的第一帧生成第一令牌组以及从该视频流的第二帧生成第二令牌组。基于来自该第一令牌组的令牌与该第二令牌组中的对应令牌的比较,标识与来自该第一帧的要重用的特征相关联的第一令牌集以及与来自该第二帧的要计算的特征相关联的第二令牌集。生成针对该第二帧的对应于该第二令牌集的部分的特征输出。将与该第一令牌集相关联的特征与针对该第二帧的对应于该第二令牌组的该部分的所生成特征输出组合成该视频流的该第二帧的表示。
3、其他方面提供了处理系统,该处理系统被配置为执行前述方法以及本文所描述的那些方法;包括指令的非暂态计算机可读介质,该指令在由处理系统的一个或多个处理器执行时使该处理系统执行前述方法以及本文所描述的那些方法;一种计算机程序产品,该计算机程序产品体现在计算机可读存储介质上,该计算机可读存储介质包括用于执行前述方法以及本文所述的方法的代码;以及处理系统,该处理系统包括用于执行前述方法以及本文进一步描述的那些方法的构件。
4、以下描述和相关附图详细阐述了一个或多个方面的某些例示性特征。
1.一种用于使用机器学习模型处理视频流的处理器实现的方法,所述处理器实现的方法包括:
2.根据权利要求1所述的方法,其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。
3.根据权利要求1所述的方法,其中:
4.根据权利要求3所述的方法,其中:
5.根据权利要求1所述的方法,其中:
6.根据权利要求1所述的方法,其中通过经由二元门输入所述第一令牌组和所述第二令牌组来标识所述第一令牌集和所述第二令牌集,所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数。
7.根据权利要求1所述的方法,所述方法还包括标识对应于所述视频流中的可移除数据的第三令牌组,其中所述特征输出排除对应于所述第三令牌组的特征。
8.根据权利要求7所述的方法,其中通过三元门来标识所述第一令牌组、所述第二令牌组和所述第三令牌组,所述三元门被训练以最小化:作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数;以及针对零状态、共享状态和计算状态中的每一者的正则化因子,在所述共享状态,所述第一令牌组中的令牌与所述第二令牌组中的对应令牌相同,在所述计算状态,所述第一令牌组中的令牌与所述第二令牌组中的令牌不同。
9.一种使用机器学习模型处理视频流的系统,所述系统包括包括:
10.根据权利要求9所述的系统,其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。
11.根据权利要求9所述的系统,其中:
12.根据权利要求11所述的系统,其中:
13.根据权利要求9所述的系统,其中:
14.根据权利要求9所述的系统,其中通过经由二元门输入所述第一令牌组和所述第二令牌组来标识所述第一令牌集和所述第二令牌集,所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数。
15.根据权利要求9所述的系统,其中所述处理器还被配置为使所述系统标识对应于所述视频流中的可移除数据的第三令牌组,其中所述特征输出排除对应于所述第三令牌组的特征。
16.根据权利要求15所述的系统,其中通过三元门来标识所述第一令牌组、所述第二令牌组和所述第三令牌组,所述三元门被训练以最小化:作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数;以及针对零状态、共享状态和计算状态中的每一者的正则化因子,在所述共享状态,所述第一令牌组中的令牌与所述第二令牌组中的对应令牌相同,在所述计算状态,所述第一令牌组中的令牌与所述第二令牌组中的令牌不同。
17.一种用于使用机器学习模型处理视频流的处理系统,所述处理系统包括:
18.根据权利要求17所述的处理系统,其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。
19.根据权利要求17所述的处理系统,其中:
20.根据权利要求19所述的处理系统,其中:
21.根据权利要求17所述的处理系统,其中:
22.根据权利要求17所述的处理系统,其中用于标识所述第一令牌集和所述第二令牌集的所述构件包括用于通过二元门输入所述第一令牌组和所述第二令牌组的构件,所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数。
23.根据权利要求17所述的处理系统,其中用于标识的所述构件被配置为标识对应于所述视频流中的可移除数据的第三令牌组,其中所述特征输出排除对应于所述第三令牌组的特征。
24.根据权利要求23所述的处理系统,其中用于标识所述第一令牌组、所述第二令牌组和所述第三令牌组的所述构件包括三元门,所述三元门被训练以最小化:作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数;以及针对零状态、共享状态和计算状态中的每一者的正则化因子,在所述共享状态,所述第一令牌组中的令牌与所述第二令牌组中的对应令牌相同,在所述计算状态,所述第一令牌组中的令牌与所述第二令牌组中的令牌不同。
25.一种其上存储有指令的非暂态计算机可读介质,所述指令当由处理器执行时使所述处理器执行用于使用机器学习模型处理视频流的操作,所述操作包括:
