基于子块运动矢量的用于运动矢量预测的方法和装置与流程

专利2025-06-19 53

本公开描述了一组先进的视频编码技术。更具体地，所公开的技术涉及基于子块运动矢量的运动矢量预测的实现和增强。

背景技术：

1、本文所提供的背景描述是出于总体上呈现本公开上下文的目的。在该背景技术部分以及本说明书的各个方面中在某种程度上所描述的目前已署名的发明人的工作，并不表明其在本技术提交时作为现有技术，且从未明示或暗示其被承认为本公开的现有技术。

2、可以使用具有运动补偿的帧间预测来执行视频编码和视频解码。未压缩的数字视频可以包括一系列图片，每个图片具有例如1920×1080的亮度样本和相关联的完全采样的或子采样的色度样本的空间维度。该系列图片可以具有固定的或可变的图片速率(可替换地称为帧率)，例如每秒60幅图片或每秒60帧。未压缩视频对流传输或数据处理有特定的比特率要求。例如，像素分辨率为1920×1080、帧率为60帧/秒、色度子采样为4：2：0(每个颜色通道每像素8位)的视频需要接近1.5gbit/s的带宽。一小时这样的视频需要超过600gb的存储空间。

3、视频编码和视频解码的一个目的可以是通过压缩来减少未压缩的输入视频信号中的冗余。在某些情况下，压缩有助于将上述带宽和/或存储空间需求降低两个数量级或更多。可以采用无损压缩和有损压缩以及它们的组合。无损压缩是指通过解码过程可以从压缩的原始信号中重建出原始信号的精确副本的技术。有损压缩是指编码过程/解码过程，其中，原始视频信息在编码期间不能完全保留，并且在解码期间不能完全恢复。当使用有损压缩时，重建信号可以与原始信号不相同，但是原始信号和重建信号之间的失真足够小，以使得尽管有一些信息损失，但是重建信号对预期应用仍然可用。在视频的情况下，有损压缩被广泛应用于许多应用中。可容许失真的大小取决于应用。例如，某些消费者视频流应用的用户可以比电影或电视广播应用的用户容许更高的失真。可以选择或调整特定编码算法可实现的压缩比，以反映各种失真容许度：较高的可容许失真通常允许产生较高损耗和较高压缩比的编码算法。

4、视频编码器和视频解码器可以利用来自几个广泛的类别和步骤的技术，包括例如运动补偿、傅立叶变换、量化和熵编码。

5、视频编解码器技术可以包括称为帧内编码的技术。在帧内编码中，不参考来自先前重建的参考图片的样本或其他数据来表示样本值。在一些视频编解码器中，图片在空间上被细分为样本块。当所有样本块都以帧内模式编码时，该图片可被称为帧内图片。帧内图片及其衍生物，例如独立解码器刷新图片，可用于重置解码器状态，因此，可用作已编码视频码流和视频会话中的第一图片，或用作静止图像。帧内预测后的块的样本然后可以被变换到频域，并且如此产生的变换系数可以在熵编码之前被量化。帧内预测代表一种在预变换域中最小化样本值的技术。在一些情况下，变换后的直流(direct current，dc)值越小，交流(alternating current，ac)系数越小，在给定的量化步长下表示熵编码后的块所需的比特就越少。

6、传统的帧内编码，例如从动态图像专家组(moving picture experts group，mpeg)-2代编码技术中已知的帧内编码，不使用帧内预测。然而，一些较新的视频压缩技术包括基于例如周围样本数据和/或元数据来尝试对块进行编码/解码的技术，所述周围样本数据和/或元数据是对空间相邻进行编码和/或解码期间获得的，并且周围样本数据和/或元数据在解码顺序上领先于被帧内编码或解码的数据块。这种技术此后被称为“帧内预测”技术。应注意，至少在一些情况下，帧内预测使用仅来自重建下的当前图片的参考数据，而不使用来自其他参考图片的参考数据。

7、可以有许多不同形式的帧内预测。当在给定的视频编码技术中存在一个以上这样的技术可用时，所使用的技术可以被称为帧内预测模式。可以在特定的编解码器中提供一个或多个帧内预测模式。在某些情况下，模式可以具有子模式和/或可以与各种参数相关联，并且用于视频块的模式/子模式信息和帧内编码参数可以被单独地或集体地编码在模式码字中。对于给定的模式、子模式和/或参数组合，使用哪个码字可以通过帧内预测对编码效率增益产生影响，用于将码字转换成码流的熵编码技术也是如此。

8、h.264引入了某种帧内预测模式，在h.265中进行了改进，并在联合探索模型(joint exploration model，jem)、通用视频编码(versatile video coding，vvc)和基准集(benchmark set，bms)等较新的编码技术中进一步改进。通常，对于帧内预测，可以使用已经变得可用的相邻样本值来形成预测值块。例如，沿着特定方向和/或线的特定相邻样本集合的可用值可以被复制到预测值块中。对所使用方向的参考可以编码在码流中，或者其本身可以被预测。

9、参考图1a，在右下方描绘的是在h.265的33个可能的帧内预测值方向(对应于h.265中指定的35个帧内模式中的33个角度模式)中指定的9个预测值方向的子集。箭头汇聚的点(101)表示被预测的样本。箭头表示使用相邻样本来预测在101处的样本的方向。例如，箭头(102)指示样本(101)是从与水平方向成45度角的右上角的一个或多个相邻样本中预测的。类似地，箭头(103)指示样本(101)是从与水平方向成22.5度角的样本(101)的左下方的一个或多个相邻样本中预测的。

10、仍然参考图1a，在左上角描绘了4×4个样本(由虚线、粗体线表示)的方块(104)。方块(104)包括16个样本，每个样本标记为“s”，并且标记有其在y维度中的位置(例如，行索引)以及其在x维度中的位置(例如，列索引)。例如，样本s21是y维度(从上往下)中的第二个样本和x维度中的第一个样本(从左往右)。类似地，样本s44在y维度上和x维度上都是块(104)中的第4个样本。由于该块的大小为4×4个样本，因此，s44位于右下角。进一步示出了遵循类似编号方案的示例参考样本。参考样本标记为r，并且标记有其相对于块(104)的y位置(例如，行索引)和x位置(列索引)。在h.264和h.265中，都使用与重建下的块相邻的预测样本。

11、块104的帧内预测可以通过根据用信号表示的预测方向从相邻样本复制参考样本值来开始。例如，假设已编码视频码流包括针对该块104的指示箭头(102)的预测方向的信令，即，从与水平方向成45度角的右上角处的一个或多个预测样本来预测样本。在这种情况下，从相同的参考样本r05中预测样本s41、s32、s23和s14。然后从参考样本r08中预测样本s44。

12、在某些情况下，为了计算参考样本，可以例如通过插值来组合多个参考样本的值，尤其是当方向不能被45度整除时。

13、随着视频编码技术的不断发展，可能的方向的数量已经加。在h.264(2003年)中，例如，有九个不同的方向可用于帧内预测。在h.265(2013年)中，可用于帧内预测的方向的数量增加到33个，在本公开的时间点，jem/vvc/bms可以支持多达65个方向。已经进行了实验研究来帮助识别最合适的帧内预测方向，并且熵编码中的某些技术可以用于在少量比特中编码那些最合适的方向，这些技术接受对方向的一定比特惩罚。此外，有时可以从已经被解码的相邻块的帧内预测中使用的相邻方向来预测方向本身。

14、图1b示出了根据jem描绘65个帧内预测方向的示意图(180)，以说明随时间发展的各种编码技术中预测方向的数量的增加。

15、用于将表示帧内预测方向的比特映射到编码视频码流中的预测方向的方式可能因视频编码技术而异；并且该方式可以包括，例如，从预测方向到帧内预测模式、从预测方向到码字、从预测方向到涉及最可能模式的复杂自适应方案的简单直接映射，以及类似的技术。然而，在所有情况下，可以存在用于帧内预测的某些方向，其在统计上比某些其他方向更不可能出现在视频内容中。由于视频压缩的目标是减少冗余，因此，在设计良好的视频编码技术中，那些不太可能的方向可以用比更可能的方向更多的比特来表示。

16、帧间图片预测或帧间预测可以基于运动补偿。在运动补偿中，来自先前重建的图片或先前重建的图片的一部分(参考图片)的样本数据在沿由运动矢量(此后记为mv)指示的方向空间移位之后，可以用于预测新重建的图片或新重建的图片部分(例如，块)。在某些情况下，参考图片可以与当前正在重建的图片相同。mv可以具有x和y两个维度，或者具有三个维度，其中第三个维度是所使用的参考图片的指示(类似于时间维度)。

17、在一些视频压缩技术中，适用于样本数据的某个区域的当前mv可以从其他mv中预测，例如，从那些与样本数据的其他区域相关的其他mv中预测，这些其他mv在空间上与正在重建的区域相邻，并且在解码顺序上领先于当前mv。这样做可以通过依赖于去除相关mv中的冗余来显著减少编码mv所需的整体数据量，从而提高压缩效率。mv预测可以有效地工作，例如，因为当对从相机导出的输入视频信号(称为自然视频)进行编码时，存在比单个mv适用的区域更大的区域在视频序列中沿相似方向移动的统计可能性，因此，在某些情况下可以使用从相邻区域的mv导出的相似运动矢量来进行mv预测。这导致给定区域的实际mv与从周围mv中预测的mv相似或相同。在熵编码之后，相比于直接编码mv而不是从相邻mv中预测mv的情况，这样的mv又可以用更少的比特数来表示。在一些情况下，mv预测可以是从原始信号(即：样本流)中导出的信号(即：mv)的无损压缩的示例。在其他情况下，例如，当从几个周围的mv中计算预测值时，由于舍入误差，mv预测本身可能是有损的。

18、h.265/hevc(itu-t h.265建议书，“高效视频编解码(high efficiency videocoding)”，2016年12月)中描述了各种mv预测机制。在h.265指定的多种mv预测机制中，本技术描述的是下文称作“空间合并”的技术。

19、具体地，参考图2，当前块(201)包括在运动搜索过程中已经由编码器发现的样本，可以根据已产生空间偏移的相同大小的先前块来预测该样本。另外，可从一个或多个参考图片相关联的元数据中导出该mv，而非对mv直接编码。例如，使用关联于a0、a1和b0、b1、b2(分别对应202到206)五个周围样本中的任一样本的mv，(按解码次序)从最近的参考图片的元数据中导出该mv。在h.265中，mv预测可使用相邻块使用的相同参考图片的预测值。

技术实现思路

1、本公开描述了基于子块运动矢量的用于运动矢量预测的方法、装置和计算机可读存储介质的各种实施例。

2、根据一方面，本公开的实施例提供了一种用于解码已编码视频码流中当前帧的当前块的方法。所述方法包括：设备接收已编码视频码流。所述设备包括用于存储指令的存储器和与所述存储器通信的处理器。所述方法还包括：所述设备基于所述已编码视频码流确定要通过至少一个参考帧的至少一个参考块进行帧间预测的当前帧的当前块；所述设备基于所述已编码视频码流确定与所述至少一个参考块中的每一个参考块对应的当前块运动矢量(mv)，其中，通过参考mv来预测所述当前块mv；以及所述设备将mv参考块的子块mv识别为用于预测所述当前块mv的参考mv。存储所述mv参考块的子块mv以用作运动矢量预测值(motion vector predictor，mvp)。

3、根据另一方面，本公开的实施例提供了一种用于处理已编码视频码流中当前帧的当前块的装置。该装置包括用于存储指令的存储器；以及与所述存储器通信的处理器。当处理器执行所述指令时，所述处理器被配置为使得所述装置执行上述用于视频解码和/或编码的方法。

4、在另一方面，本公开的实施例提供了用于存储指令的非暂时性计算机可读介质，当所述指令由用于视频解码和/或编码的计算机执行时，使得所述计算机执行上述用于视频解码和/或编码的方法。

5、在附图、说明书和权利要求中更详细地描述了上述和其他方面及其实施方式。

技术特征：

1.一种用于解码已编码视频码流中的当前帧的当前块的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

3.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

4.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

5.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

6.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

7.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

8.根据权利要求1所述的方法，其中，

9.根据权利要求1所述的方法，其中，在将所述mv参考块的子块mv识别为用于预测所述当前块mv的参考mv之前，所述方法还包括：

10.根据权利要求1所述的方法，其中，

11.根据权利要求1所述的方法，其中，

12.根据权利要求1所述的方法，其中，

13.根据权利要求1所述的方法，其中，

14.根据权利要求1所述的方法，其中，

15.一种用于处理已编码视频码流中的当前帧的当前块的装置，所述装置包括：

16.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令由处理器执行时，所述指令被配置为使得所述处理器执行权利要求1至14中任一项所述的方法。

技术总结
本公开总体上涉及视频编码或解码，特别地涉及基于子块运动矢量的运动矢量预测。公开了一种用于处理已编码视频码流中的当前帧的当前块的方法。所述方法包括：设备接收已编码视频码流；该设备基于已编码视频码流确定要通过至少一个参考帧的至少一个参考块进行帧间预测的当前帧的当前块；该设备基于已编码视频码流确定与至少一个参考块中的每一个参考块对应的当前块运动矢量MV，通过参考MV来预测该当前块MV；以及该设备将MV参考块的子块MV识别为用于预测当前块MV的参考MV。

技术研发人员：高晗,赵欣,赵亮,刘杉
受保护的技术使用者：腾讯美国有限责任公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1821530.html

专利

最新回复(0)