一种基于动态条件卷积的视频实例分割方法及系统与流程

专利2022-05-09  24


本发明属于视频图像处理技术领域,涉及一种基于动态条件卷积的视频实例分割方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

视频实例分割是计算机视觉中一项非常经典的任务,具体为是在第0帧中给定一个目标的分割标签,以此为依据,在后续帧中不断对目标进行定位。

视频自动分割最早起源于运动分割,分析视频中运动的区域。在几何约束下的,尤其注重点轨迹,并通过聚类算法对运动信息进行分析,得到最终结果。但这类方法简单的将运动的部分认为是视频中需要分割的目标,容易造成分割结果的碎片化,且不能完整、友好的表达物体级别的信息。随着深度学习技术的产生,无监督、半监督的视频目标分割受到越来越多的关注,使用深度学习方法将前景目标物体进行分割,这类的前景目标物体既可以是静止的,也可以是运动的,是视频中最关键、最显著的物体。

视频实例分割不但要精确分割出像素级别的分割结果,也要预测相应的语义类别,使同一个物体在不同帧上分配到同一个id。

早期的常见方法是,给出了第0帧的标注,可以利用帧与帧之间的相关性,例如,光流方法。将第0帧的标注顺序传导到第二帧,第二帧的标注再传导到第三帧,直到最后一帧。但是由于视频中目标物体的运动和部分遮挡等现象,这种简单依赖于顺序传递的方法并没有取得理想的效果。

在线学习的方法将视频目标分割分为训练阶段和测试阶段:(1)在训练阶段,使用训练集训练视频分割模型;(2)测试时,给定测试视频,使用测试数据的第0帧进行数据增强,训练集训练的模型再继续在扩充后的测试集第0帧的样本上进行优化。这类方法非常耗时,每给定一个测试视频,都需要使用测试视频第0帧进行在线学习。

综上所述,现有技术用于视频实例分割问题,尚缺乏且精确度高且高效的解决方案。



技术实现要素:

为了解决上述背景技术中存在的技术问题,本发明提供一种基于动态条件卷积的视频实例分割方法及系统,其能够自动根据视频第一帧的实例标签,预测后续帧中对应的实例,以全自动方式进行,无需进行交互运算。

为了实现上述目的,本发明采用如下技术方案:

本发明的第一个方面提供一种基于动态条件卷积的视频实例分割方法。

一种基于动态条件卷积的视频实例分割方法,包括:

将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

本发明的第二个方面提供一种基于动态条件卷积的视频实例分割系统。

一种基于动态条件卷积的视频实例分割系统,包括:

模型训练模块,其被配置为:将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

模型约束模块,其被配置为:基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

模型测试模块,其被配置为:获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于动态条件卷积的视频实例分割方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于动态条件卷积的视频实例分割方法中的步骤。

与现有技术相比,本发明的有益效果是:

1.在分割效果上,本发明首次提出一种基于动态条件卷积的视频实例分割模型。视频第0帧带标签图像经过金字塔网络提取多尺度特征,与图像对应标签结合,生成的动态条件卷积核能够隐式编码图像中实例的特征,灵活表示实例的不规则形状,与基于roi的方法相比,提高了模型运算的准确率。

2.在实用性和扩展性上,方法基于简单灵活的fcos目标检测,与动态条件卷积方法结合。在一个实施例中,方法以一个视频分割为例,实现视频中实例的自动分割。本发明的基于动态条件卷积核的视频实例分割方法中,模型的金字塔网络分别提取视频中每一帧的多尺度特征,用于后续的动态条件卷积核的生成,以及视频中实例的分割。

3.在计算效率上,本发明中全连接标签生成网络的卷积核是根据第0帧及后续帧的实例区域特征动态生成的,每次仅计算视频中一个实例的标签,减轻了条件卷积核的信息负载量,从而提高计算效率。

4.在运算速度上,本发明中动态条件卷积核的使用,使测试阶段不需要模型在数据扩充后的第0帧图像上进行多次优化,提高了模型运算的速率。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本发明一种基于动态条件卷积核的视频实例分割方法的流程图;

图2是本发明一种基于动态条件卷积核的视频实例分割方法模型图;

图3是本发明实施例中特征金字塔网络示意图;

图4是本发明实施例中动态条件卷积网络示意图;

图5是本发明实施例中全连接标签生成网络示意图;

图6是本发明实施例中数据扩充结果图;

图7是本发明实施例中实例分割示例图;

图8是本发明实施例中一组基于动态卷积核的视频实例分割结果示例图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1-2所示,本实施例提供了一种基于动态条件卷积的视频实例分割方法方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:

s101:将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

具体的,金字塔网络分别提取第0帧和后续帧的多尺度特征;融合后的图像多尺度特征输入动态条件网络,与第0帧标签结合计算,获得基滤波。基滤波经过组合得到一组可用于全连接标签生成网络的动态卷积核,进而对待计算帧图像多尺度特征进行卷积操作,得到实例分割结果。三个网络形成一个统一的架构,可以端到端学习的方式进行训练。

示例的,训练过程中,从视频序列中随机抽取4帧连续的图像,组成一个新的视频片段。特征金字塔网络分别提取第0帧及后续帧的多尺度特征,生成卷积核kernel1和kernel2,作为全连接生成网络的卷积核,生成最终视频分割结果。

如图3所示,特征金字塔网络(fpn),由resnetblock、池化层以及步长为2的卷积核构成。由于网络结构与金字塔相似而得名。图像经过自下而上的路径卷积运算和下采样,特征图越来越小,每个尺度的最后一层特征作为自下而上的卷积结构输出的高层语义特征;自上而下的路径对高层语义特征进行卷积和上采样;两条路径之间有跳网(skipconnection)连接并进行特征融合;输出为融合后的多尺度特征,用于后续的检测或分割运算。视频中的图像经过特征金字塔网络提取不同尺度的深度图像特征,经过上采样及特征融合,输出多尺度特征,可作为动态条件卷积网络和全连接标签生成网络的输入。

需要注意的是,尺寸差异大的物体的目标检测和分割是计算机视觉任务处理的难题。多尺度特征的使用,使网络能够在不同尺度上捕获信息,对提高网络性能有很大帮助。

作为一种或多种实施方式,如图4所示,动态条件卷积网络(dccn),由动态卷积层组成。来自特征金字塔网络输出的融合多尺度特征{p3,p4,p5},分别经过三个可训练的卷积操作,得到特征图,与第0帧的实例标签结合并生成一组基滤波,基滤波组合为3×3的卷积核。用于赋值给全连接标签生成网络。

需要注意的是,动态条件卷积网络为全卷积神经网络,取代其他基于深度学习检测/分割方法(例如,fasterr-cnn,maskr-cnn)中roi操作,能够实现比其他检测/分割方法更快的性能。动态条件卷积网络以原有实例为条件动态生成待分析图片的卷积核,可以进行有条件的少数据量的学习,减少训练模型所需的数据量。且测试阶段不需要在第0帧上对网络重新优化,有效加快了推理速度

作为一种或多种实施方式,如图5所示,全连接标签生成网络(fcmn),由两层卷积组成,卷积核参数来自动态条件卷积网络的预测,经过两次全卷积,得到后续帧图像中的实例分割预测结果。

s102:基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

作为一种或多种实施方式,模型的总损失函数表示为:

ltotal=lfcos λlmask

lfcos为fcos的原始损失,lmask为实例分割损失,λ用来平衡两个损失。

lmask定义为:

其中,是位置(x,y)的分类标签,表示该位置的实例的类别,如果此位置无任何实例,则该位置为背景区域,分类结果为0。npos是的位置数,即实例数。为指标函数,若则为1,否则为0。θx,y是位置(x,y)的滤波器参数。是fmask和坐标的映射的组合。如前面所述,ox,y是特征图上所有位置到(x,y)的相对坐标。mask表示特征图经过动态卷积参数θx,y卷积后的结果。是位置(x,y)处的实际标签。

s103:获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

其中,待测视频的第一帧的实例标签指的是:待测视频数据只有第一帧图像带有实例分割标签数据。

作为一种或多种实施方式,在所述将视频数据输入视频实例分割模型进行训练之前包括:获取视频数据,并采用数据扩充方法在原视频数据的基础上进行视频数据扩充,生成的视频数据训练集用于训练视频实例分割模型。其中,视频数据训练集中所有视频数据的所有帧都带有实例分割的标签数据。

根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述视频实例分割模型包括两个相同结构的特征金字塔网络,每个特征金字塔网络包括resnetblock、池化层以及步长为2的卷积核。

作为一种或多种实施方式,动态条件卷积网络的输入为特征金字塔网络提取的后续帧图像的多尺度特征,后续帧图像的多尺度特征分别经过三个训练的卷积操作,得到特征向量,然后与第0帧带有实例标签图像结合生成一组基滤波,基滤波组合为卷积核,赋值给全连接标签生成网络。

作为一种或多种实施方式,全连接标签生成网络包括两层卷积,卷积核参数来自动态条件卷积网络的预测,经过两次全卷积操作,得到后续帧图像中的实例分割预测结果。

实施例二

本实施例提供了一种基于动态条件卷积的视频实例分割系统。

一种基于动态条件卷积的视频实例分割系统,包括:

模型训练模块,其被配置为:将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

示例的,设置视频实例分割模型使用数据路径、预训练模型、模型存储路径等,以及初始化、偏差、正则化、初始学习率、学习率降低方式、优化算法、迭代次数、数据增强方式等训练参数,实现视频实例分割模型的训练。

可选地,特征金字塔网络的参数使用imagenet数据集预训练的模型进行迁移学习,而不是使用初始化的模型训练。在后续训练中不发生变化。除特征金字塔网络中的参数,整个模型中其他可变参数在训练过程中被反向传播优化,训练后的模型用于视频实例分割。

需要注意的是,模型从以前学习的任务当中学习的知识或经验,应用于新的任务中时,训练更快或取得更好地效果。方法使用imagenet数据集预训练的模型,能够保证特征金字塔网络在不经过大量数据训练的条件下,依旧能够提取图像的关键信息,用于后续的检测分割任务。

训练过程中,从整个视频序列中随机抽取4帧连续的图像,组成一个新的视频片段。特征金字塔网络分别提取新片段的第0帧及后续帧的多尺度特征,动态条件卷积网络生成卷积核kernel1和kernel2,作为全连接生成网络中的卷积核参数;后续待分割帧对应的多尺度特征经过卷积运算,生成最终视频实例分割结果。

模型约束模块,其被配置为:基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

模型测试模块,其被配置为:获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

示例的,模型测试过程与训练过程相似,设置输入图像、使用模型等。在一个实施例中,输入包括测试文件夹路径、测试模型路径、测试模型、测试图像数量、测试结果输出路径。从整个视频中抽取视频帧,生成动态条件卷积核,对多尺度特征进行卷积,生成视频帧实例分割结果。最后,进行测试结果显示,显示模型生成的实例分割结果。

在一个实施例中,模型测试模块包括文件存储和可视化显示。生成的文件存储于计算机设备的存储器中,且可视化显示生成的视频分割结果。

从图8可以看出,本发明的技术方案保证了视频中实例分割的准确性。

作为一种或多种实施方式,在模型训练模块之前还包括视频数据采集模块和视频数据扩充模块。

其中,视频数据采集模块,其被配置为:获取视频数据。

示例的,本实施例使用网络公开的数据集进行实验。视频数据来自两个公开的比赛:davis2016-2020(denselyannotatedvideosegmentation,密集注释的视频分割),youtube-vos(alarge-scalebenchmarkforvideoobjectsegmentation,视频对象分割的大型标准数据)。

视频数据扩充模块,其被配置为:采用数据扩充方法在原视频数据的基础上进行视频数据扩充,生成的视频数据训练集用于训练视频实例分割模型。其中,视频数据训练集中所有视频数据的所有帧都带有实例分割的标签数据。

对训练集及测试集视频进行数据扩充处理,在原数据基础上生成新的数据集,以实现扩充数据集的作用。具体来说,扩充方式包括简单的增广方法(例如,翻转、旋转、饱和度、灰度、亮度、中心裁剪、对比度、颜色翻转、仿射变换等)和随机擦除或修改图像中的部分区域(例如,cutout,cutmix操作)。在一个实施例中,如图6所示,展示了一个视频序列的其中一帧上的数据扩充结果。

需要注意的是,对视频数据进行数据扩充处理,需要在一个序列图像上执行相同的增广操作,以保持视频数据的连贯性。

需要说明的是,在对视频数据进行扩充处理时,并不限制所采用的具体的实现编码语言,例如,可以是matlab、python等编程语言中的任何一种进行数据扩充处理。

实施例三

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于动态条件卷积的视频实例分割方法中的步骤。

实施例四

本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于动态条件卷积的视频实例分割方法中的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于动态条件卷积的视频实例分割方法,其特征在于,包括:

将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

2.根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,在所述将视频数据输入视频实例分割模型进行训练之前包括:

获取视频数据,并采用数据扩充方法在原视频数据的基础上进行视频数据扩充,生成的视频数据训练集用于训练视频实例分割模型。

3.根据权利要求2所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述视频数据训练集中所有视频数据的所有帧都带有实例分割的标签数据。

4.根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述待测视频的第一帧的实例标签指的是:待测视频数据只有第一帧图像带有实例分割标签数据。

5.根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述视频实例分割模型包括两个相同结构的特征金字塔网络,每个特征金字塔网络包括resnetblock、池化层以及步长为2的卷积核。

6.根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述动态条件卷积网络的输入为特征金字塔网络提取的后续帧图像的多尺度特征,后续帧图像的多尺度特征分别经过三个训练的卷积操作,得到特征向量,然后与第0帧带有实例标签图像结合生成一组基滤波,基滤波组合为卷积核,赋值给全连接标签生成网络。

7.根据权利要求1所述的基于动态条件卷积的视频实例分割方法,其特征在于,所述全连接标签生成网络包括两层卷积,卷积核参数来自动态条件卷积网络的预测,经过两次全卷积操作,得到后续帧图像中的实例分割预测结果。

8.一种基于动态条件卷积的视频实例分割系统,其特征在于,包括:

模型训练模块,其被配置为:将视频数据输入视频实例分割模型进行训练;

其中,所述视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;所述特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;所述动态条件卷积网络从后续帧图像的多尺度特征中抽取目标实例特征,并与第0帧带有实例标签图像结合,生成动态条件卷积核;所述全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;

模型约束模块,其被配置为:基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;

模型测试模块,其被配置为:获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于动态条件卷积的视频实例分割方法中的步骤。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于动态条件卷积的视频实例分割方法中的步骤。

技术总结
本发明提供了一种基于动态条件卷积的视频实例分割方法及系统,该方法包括:将视频数据输入视频实例分割模型进行训练;其中,视频实例分割模型包括:依次连接的特征金字塔网络、动态条件卷积网络以及全连接标签生成网络;特征金字塔网络提取视频中图像的第0帧带有实例标签图像和后续帧图像的多尺度特征;动态条件卷积网络用于生成动态条件卷积核;全连接标签生成网络使用动态条件卷积核对视频后续帧的特征卷积运算,得到后续帧中的实例标签;基于损失函数对视频实例分割模型进行约束,输出训练好的视频实例分割模型;获取待测视频的第一帧的实例标签,将视频第一帧的实例标签输入训练好的视频实例分割模型,输出视频后续帧中对应的实例。

技术研发人员:郑元杰;隋晓丹;姜岩芸;刘弘;牛屹
受保护的技术使用者:山东师范大学
技术研发日:2021.03.31
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350267.html

最新回复(0)