本发明涉及图像处理技术领域,特别是涉及一种图像处理方法、装置、设备和存储介质。
背景技术:
随着科技的不断进步,图像处理技术不断发展。图像处理技术可以应用到诸多的应用领域中。例如:利用图像处理技术可以识别并且定位视频中的目标人物。又如:利用图像处理技术可以确定监控对象的状态。
目前,图像处理技术大多是通过图像匹配来实现的,即:将视频数据中的图像与预设的基准图像进行匹配,如果视频数据中的图像与基准图像匹配成功,则确定视频数据中出现了基准图像对应的目标对象(动物或人物),并且认为视频数据中的该目标对象正处于该基准图像对应的状态。其中,基准图像可以是目标对象可能会出现的动作的形态轮廓,例如:蜷缩的形态,抬手的形态等。也即是说,目前的图像处理技术仅能分析目标对象的形态特征,无法分析目标对象的个性特征,如:无法反映目标对象的气质、形象、性格等。
然而,在许多应用场景中,需要确定目标对象的个性特征,以便确定目标对象的精神风貌。例如:在艺术创作过程中,选角是最大的挑战,很多考量因素具有主观性和创造性,但又有一定的章法可依,这种章法对于有经验的专业从业者是清晰的。进一步地,在选角过程中,演员的作品是选角最重要的依据。一般来说,一位演员的影视作品的总时长往往在十个小时以上,甚至长达几百个小时,由于目前缺少一种用于确定目标对象个性特征的图像处理方式,无法快速对影视作品的视频做分析,需要工作人员花费大量的时间观看演员的影视作品,所以工作人员在从大量候选演员中挑选符合角色特点的演员时,需要承担巨大的工作负荷。
技术实现要素:
本发明实施例的目的在于提供一种图像处理方法、装置、设备和存储介质,以解决图像处理技术仅能分析目标对象的形态特征,无法分析目标对象的个性特征的问题。
针对上述技术问题,本发明是通过以下技术方案来实现的:
在本发明实施的第一方面,首先提供了一种图像处理方法,包括:获取多帧目标图像;其中,在每帧所述目标图像中包括目标对象的图像;利用预先训练得到的特征确定模型,确定所述目标对象在每帧所述目标图像中对应的个性特征;对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征。
其中,所述个性特征包括至少一个特征值;每个所述特征值对应一个特征类型;对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征,包括:根据预设数量的参考特征类型,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征;其中,所述目标个性特征中的特征值的数量小于或者等于所述个性特征中的特征值的数量,所述目标个性特征中的各个特征值的特征类型与所述预设数量的参考特征类型一一对应。
其中,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征,包括:利用预设的滑动窗口在所述多帧目标图像中顺序选择图像区间;其中,在每个所述图像区间中包括所述多帧目标图像中的部分目标图像;在每个所述图像区间中,针对所述目标对象在各帧所述目标图像中分别对应的个性特征执行聚合处理,将聚合出的相同的个性特征作为候选个性特征;在多个所述图像区间中,针对所述候选个性特征执行聚合处理,并且根据聚合出的相同的候选个性特征确定所述目标个性特征。
其中,在针对所述候选个性特征执行聚合处理之前,还包括:在每个所述图像区间中,确定所述候选个性特征在所述图像区间中的分布密度;针对所述候选个性特征执行聚合处理,包括:在多个所述图像区间中,筛选出分布密度处于预设密度范围的候选个性特征,并且针对筛选出的所述候选个性特征执行聚合处理。
其中,确定所述候选个性特征在所述图像区间中的分布密度,包括:确定所述候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离;根据所述候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离,预设距离阈值以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。
其中,确定所述候选个性特征与所述图像区间中的其余每个个性特征之间的编辑距离,包括:针对每个所述个性特征,通过比较所述个性特征与所述候选个性特征的各个对应类型的特征值,确定每个所述对应类型对应的距离值;确定各个所述对应类型对应的距离值的和值,并所述和值作为所述个性特征与所述候选个性特征的编辑距离。
其中,根据所述候选个性特征与所述图像区间中的其余每个个性特征之间的编辑距离,预设距离阈值以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度,包括:在所述图像区间中除了所述候选个性特征的其余个性特征中,获取n个所述个性特征;其中,n个所述个性特征分别与所述候选个性特征之间的编辑距离小于预设距离阈值;根据n个所述个性特征中的每个所述个性特征在所述图像区间中的出现频次以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。
其中,所述距离阈值的数量为多个;确定所述候选个性特征的分布密度,包括:确定所述候选个性特征对应每个所述距离阈值的分布密度;根据所述候选个性特征对应每个所述距离阈值的分布密度,确定所述候选个性特征的分布密度。
其中,在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:确定所述目标个性特征对应的图像区间;在所述目标个性特征对应的图像区间中,选择预设第一数量的图像区间分别对应的视频片段作为所述目标对象对应的目标个性视频片段,并且在预设的第一显示设备中展示每个所述目标个性视频片段对应的视频展示数据。
其中,在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:确定所述目标个性特征对应的目标图像;在所述目标个性特征对应的目标图像中,选择预设第二数量的目标图像分别作为所述目标对象对应的目标个性视频图像,并且在预设的第一显示设备中展示每帧所述目标个性视频图像。
其中,所述目标对象为目标演员;在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:获取待匹配对象对应的关键词;查询所述目标对象的所述目标个性特征对应的特征词;确定所述待匹配对象对应的关键词与所述目标对象对应的特征词之间的匹配度。
其中,所述目标对象为目标演员,并且所述目标演员的数量为多个;所述待匹配对象为待匹配角色;确定所述待匹配对象对应的关键词与所述目标对象对应的特征词之间的匹配度,包括:确定所述待匹配角色对应的关键词与每个所述目标演员对应的特征词之间的匹配度,以便根据多个所述目标演员分别对应的匹配度执行演员推荐操作。
其中,每个所述特征类型对应语义相关的至少两个特征词,所述特征类型的特征值对应所述至少两个特征词中的一个特征词;或者,每个所述特征类型对应一个特征词,所述特征类型的特征值对应所述目标对象与所述特征词的匹配级别。
在本发明实施的第二方面,还提供了一种图像处理装置,包括:接收和获取模块,用于接收多帧目标图像并且在所述多帧目标图像中获取多帧目标图像;其中,在每帧所述目标图像中包括目标对象的图像;第一确定模块,用于利用预先训练得到的特征确定模型,确定所述目标对象在每帧所述目标图像中对应的个性特征;第二确定模块,用于对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征。
在本发明实施的第三方面,还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。
在本发明实施的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。
本发明实施例提供的图像处理方法、装置、设备和存储介质,先利用特征确定模型确定目标对象在每帧目标图像中对应的个性特征;再通过聚合处理,确定目标对象在视频数据中对应的目标个性特征。由于目标对象在一帧目标图像中表现出的个性特征具有局限性,所以本发明实施例在确定目标对象在每帧目标图像中的个性特征之后,通过执行聚合处理,确定目标对象在多帧目标图像中对应的目标个性特征。目标个性特征是目标对象在多帧图像中表现出的具有代表性的个性特征,可以全面的展现目标对象原本的精神面貌。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是根据本发明一实施例的图像处理方法的流程图;
图2是根据本发明一实施例的获取目标图像的步骤流程图。
图3是根据本发明一实施例的特征确定模型的模型结构示意图;
图4是根据本发明一实施例的确定目标个性特征的步骤流程图;
图5是根据本发明一实施例的确定分布密度的步骤流程图;
图6是根据本发明一实施例的图像处理装置的结构图;
图7是根据本发明一实施例的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例的技术方案进行描述。
根据本发明实施例,提供一种图像处理方法。如图1所示,是根据本发明一实施例的图像处理方法的流程图。
步骤s110,获取多帧目标图像;其中,在每帧所述目标图像中包括目标对象的图像。
目标图像是视频数据中的图像。
目标对象是图像处理的对象。目标对象的种类包括但不限于:人物和动物。例如:目标对象可以是现实生活中的人物或者动物,也可以是影视作品中虚构的人物。
具体而言,接收视频数据并且在所述视频数据中获取多帧目标图像。视频数据包括连续多帧图像。
进一步地,可以按照预设的采样间隔对视频数据中的图像进行采样;针对采样得到的图像执行目标对象检测;将检测到目标对象的图像作为目标图像,或者将检测到目标对象并且图像质量符合条件的图像作为目标图像。在目标对象获取完毕之后,按照目标图像在视频数据中所处的播放位置(播放时间),可以形成一个目标图像序列。图像质量条件将在后面进行介绍,在此不做赘述。
进一步地,采样间隔可以是经验值或者实验值,例如:视频数据为每秒25帧,可以根据每秒采样8帧来设置采样间隔。
进一步地,可以预先设置目标对象的标准图像,该标准图像的标签可以是目标对象的唯一编码(qipuid),在视频数据中,从首帧图像开始,对首帧图像进行目标对象检测,间隔一个采样间隔,再对下一帧图像进行目标对象检测,直到视频数据都检测完毕为止。针对被检测的图像,如果在该图像中包括目标对象的标准图像,则将该图像确定为目标图像,或者,如果在该图像中包括该标准图像并且该图像符合图像质量条件,则将该图像确定为目标图像。
步骤s120,利用预先训练得到的特征确定模型,确定所述目标对象在每帧所述目标图像中对应的个性特征。
特征确定模型,用于确定目标对象在目标图像中表现出的个性特征。
个性特征是目标对象在一帧图像中表现出的自身特征值的集合。进一步地,个性特征,用于表示目标对象在目标图像中对应的各个维度的特征词。特征词用于反映目标对象的气质特征、形象特征、性格特征等。
具体而言,个性特征至少包括一个特征值;每个所述特征值对应一个特征类型。每个所述特征类型对应语义相关的至少两个特征词,所述特征类型的特征值对应所述至少两个特征词中的一个特征词;或者,每个所述特征类型对应一个特征词,所述特征类型的特征值对应所述目标对象与所述特征词的匹配级别。语义相关包括但不限于:反义词,即语义相关的两个特征词互为反义词。匹配级别包括但不限于:匹配程度逐渐增强的一级匹配、二级匹配和三级匹配。个性特征中的特征类型可以根据需求而定。
个性特征可以使用数组或者向量来表示。数组中的每个元素位置对应一个特征类型,向量中的每个维度对应一个特征类型。例如:在个性特征中设置15个维度。为每个维度设置语义相关的至少两个特征词。可以在角色小传提取特征词。角色小传是字数精炼的描述角色特征的文本,其中会存在关键词汇、短语等表述角色的关键词。可以通过词袋模型从角色小传中提取出关键词汇、短语等,运用语法结构知识去除其中并非形容角色的和表达否定含义的无效描述,从而得到特征词。例如:个性特征中的维度包括但不限于:动-静,有力-无力,幼稚-成熟,“动”、“静”、“有力”、“无力”、“幼稚”、“成熟”都为特征词。
特征确定模型是通过预先训练获得的模型。训练该特征确定模型的目的在于,将目标图像输入该特征确定模型之后,该特征确定模型可以确定并输出目标对象在该目标图像中的个性特征。对于特征确定模型的训练方式将在后面进行介绍,在此不做赘述。
经过训练,特征确定模型可以确定每个特征类型对应的运算值,该运算值表示目标对象在该特征类型对应的两个反义词之间所处的位置或者目标对象与该特征类型对应的一个特征词的匹配度。特征确定模型还可以对该运算值进行离散化处理,得到运算值对应的极性值,该极性值表示目标对象与该两个反义词的对应关系或者目标对象与该一个特征词的匹配级别。
极性值包括-1,0和1。在每个特征类型对应两个反义词的情况下,-1表示目标对象属于第一特征词。1表示目标对象属于第二特征词,第一特征词和第二特征词互为反义词。0表示目标对象既不属于第一特征词,也不属于第二特征词,处于第一特征词和第二特征词之间。这样,如果在个性特征中设置15个维度,那么15个维度的维度值连接在一起,可以构成15维的个性特征,理论上可以表示3的15次方的个性特点。在每个特征类型对应一个特征词的情况下,-1表示一级匹配,0表示二级匹配,1表示三级匹配。
步骤s130,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标数据中对应的目标个性特征。
目标个性特征是目标对象在视频中表现出的自身特征值的集合。目标个性特征可以反映目标对象在视频数据中对应的各个特征类型的特征词。
聚合处理可以包括:针对目标对象在每帧目标图像中对应的个性特征执行单次聚合处理,得到包括相同个性特征数量最多的集合,将该集合对应的个性特征作为目标个性特征;或者,针对目标对象在每帧目标图像中对应的个性特征执行多次聚合处理,多次聚合处理包括:将视频数据划分为多个视频序列片段;针对每个视频序列片段,通过聚合所述目标对象在每帧所述目标图像中对应的个性特征,确定目标对象在该视频序列片段中对应的候选个性特征;通过聚合目标对象在每个视频片段中对应的候选个性特征,确定目标对象在视频数据中对应的目标个性特征。候选个性特征可以是视频序列片段中聚合出的数量最多的个性特征。目标个性特征可以是聚合出的数量最多的候选特征。
当然,本实施例仅用于描述本发明,聚合处理的方式并不用于限定于此,还可以存在确定目标个性特征的其他方式,后续将给出一个较为具体的其他方式的实施例,再次不做赘述。
在本实施例中,先利用特征确定模型确定目标对象在每帧目标图像中对应的个性特征;再通过聚合处理,确定目标对象在视频数据中对应的目标个性特征。由于目标对象在一帧目标图像中表现出的个性特征具有局限性,所以本发明实施例在确定目标对象在每帧目标图像中的个性特征之后,通过执行聚合处理,确定目标对象在多帧目标图像(视频数据中的多种目标图像)中对应的目标个性特征。目标个性特征是目标对象在多帧目标图像中表现出的具有代表性的个性特征,可以全面的展现目标对象原本的精神面貌。
下面针对如何获取目标图像的步骤进行描述。
在本实施例中,根据图像检测技术和图像质量检测模型获取视频数据中的目标图像,或者根据图像检测技术和图像质量条件获取视频数据中的目标图像。
图像检测技术可以用于在视频图像中识别是否存在目标对象的图像。
图像质量检测模型,可以是事先训练得到的深度学习网络,用于检测输入图像是否符合图像质量条件。图像质量条件,用于衡量图像质量是否能够进行个性特征的确定,以便过滤图像质量较差的候选图像。
下面对根据图像检测技术以及图像质量条件,获取视频数据中的目标图像的过程进行描述。
如图2所示,是根据本发明一实施例的获取目标图像的步骤流程图。
步骤s210,针对视频数据中的每帧图像进行目标对象检测,获得候选图像;其中,在所述候选图像中包括所述目标对象的图像。
目标对象的图像可以是目标对象的头部图像,也可以目标对象的全身图像。
步骤s220,确定所述候选图像的图像质量指标。
图像质量指标,包括但不限于:在候选图像中,目标对象的图像的面积,角度,亮度和清晰度。
目标对象的图像的面积是指目标对象对应的目标检测框的面积。目标检测框用于确定目标对象的位置,目标对象的图像处于该目标检测框之中。
目标对象的图像的角度是指目标对象的角度。在目标对象为人物的情况下,目标对象的角度为目标对象的侧脸或者身体角度。在目标对象为动物的情况下,目标对象的角度为目标对象的身体角度。进一步地,可以通过角度确定算法来确定目标对象的角度。例如:在目标对象为人物的情况下,在人脸的图像中识别关键点,将关键点映射到人脸三维模型的相应位置,这时人脸三维模型的人脸角度就是人脸的角度。
步骤s230,获取图像质量指标符合预设图像质量条件的候选图像,作为目标图像。
图像质量条件,用于过滤图像质量较差的候选图像。
图像质量条件,包括但不限于:目标对象的图像占整张图像的面积比例阈值,角度范围,亮度范围和清晰度范围。图像质量条件中的各个范围端值可以是经验值或者实验值。
例如:人脸图像占整张图片的面积大于1/100,人脸的侧脸角度小于45度,人脸图像的亮度大于50勒克斯(lx),人脸图像的清晰度分大于30分。
在候选图像中,如果目标对象的图像的面积占整张图像面积的比例大于该面积比例阈值,目标对象的侧脸角度处于该角度范围,目标对象的图像亮度处于该亮度范围并且目标对象的图像清晰度处于该清晰度范围,则确定该候选图像为目标图像。
在本实施例中,在图像中检测到目标对象的图像之后,对该图像进行图像质量指标的评价,确保后续在进行个性特征确定时,目标图像的图像质量不会影响个性特征的确定结果。
在从视频数据中获取到目标图像之后,可以确定目标对象在目标图像中的个性特征。下面针对如何确定目标对象在每帧目标图像中的个性特征的步骤进行描述。
个性特征中包括至少一个特征类型的特征值,这样,特征确定模型可以是对各个特征类型分别进行独立训练的图像回归模型。进一步地,该图像回归模型的种类包括但不限于深度卷积神经网络。下面以个性特征为个性特征向量为例进行说明。
如图3所示,是根据本发明一实施例的特征确定模型的模型结构示意图。
在特征确定模型的模型中包括m个子模型,m≥1,子模型可以为分类器。该多个子模型共用底层。每个子模型对应一个维度,用于在目标图像中确定并输出目标对象的该维度的运算值。底层用于将运算值离散化为极性值。该底层可以是softmax层。
预先设置训练样本集,在该训练样本集中包括多张样本图像。每张样本图像包括目标对象的图像并且被预先标注个性特征(多维特征值)。该个性特征为目标对象对应的真实的个性特征。
在训练特征确定模型时,可以采用有监督的方式训练特征确定模型。特征确定模型的输入为单张样本图像,输出为该单张样本图像对应的多维特征值。该多维中的每个维度对应一个特征类型。该多维特征值为预测的个性特征。利用输入的样本图像的真实的多维特征值,确定特征确定模型是否收敛。在特征确定模型收敛之后,停止对特征确定模型进行训练。
进一步地,在训练特征确定模型时,可以对每个维度对应的子模型进行独立训练。每个维度的子模型需要多张样本图像(如10万张左右)进行独立训练,以便该子模型能够准确地确定目标对象在每张样本图像中的个性特征。
进一步地,特征确定模型的各个子模型分别输出一个维度的运算值,特征确定模型的底层分别对每个维度的运算值进行离散化处理,将各个维度的运算值离散化为多个极性值。
例如:初始的特征确定模型为包括15个子模型的图像回归模型。对15个子模型进行独立训练得到可以进行个性特征确定的特征确定模型。极性值包括-1,0和1。每个维度的子模型输出的运算值的范围是[-1,1],特征确定模型的底层使用预设的方式对各个运算值进行离散化,使各个运算值成为-1、0、1这三个极性值之一。可以使用阈值来对运算值进行离散化,如:第一阈值为0.5,第二阈值为-0.5,运算值大于-0.5并且小于0.5时,极性值为0,运算值大于或等于0.5时,极性值为1,运算值小于或等于-0.5时,极性值为-1。
在本实施例中,由于每个维度对应的子模型需要使用较多的样本图像进行训练,所以为了达到这一样本数量规模并保证训练数据的标注质量,可以根据图像质量条件来选择样本图像。由于图像质量条件已经在上面进行了介绍,故在此不做赘述。进一步地,针对每个维度对应的子模型,获取目标对象在该维度上具备显著个性特征(如1或-1)的图像。例如:利用图像检测算法在影视作品中检测包括目标演员的图像,过滤掉图像过暗、侧脸角度过大、人脸过小、人脸过于模糊的图像。
在选择每个维度对应的样本图像时,为了更进一步地增加样本图像的质量,可以过滤掉视频数据中明显不合适的视频序列片段。不合适的视频序列片段可以是与个性特征不符的视频序列片段,例如:反串剧情的片段。
在选择每个维度对应的样本图像时,需要控制经典角色的数量,避免经典角色的数量过少,或不同经典角色的样本图像分布不均,导致某些目标对象(如角色)的个性特征被过拟合(过度学习)。
在选择每个维度对应的样本图像时,不同演员、性别、年龄等的样本图像应当分布均匀,避免样本图像不均衡导致的过拟合问题。
在特征确定模型训练完毕之后,可以使用该特征确定模型确定目标对象在每帧目标图像中对应的个性特征。根据目标对象在每帧目标图像中对应的个性特征,确定目标对象在视频数据中的目标个性特征。
目标个性特征中涉及的特征类型可以根据用户需求而定,目标个性特征中的特征类型的数量小于或者等于个性特征中的特征类型的数量。
具体而言,可以根据预设数量的参考特征类型,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述视频数据中对应的目标个性特征;其中,所述目标个性特征中的特征值的数量小于或者等于所述个性特征中的特征值的数量,所述目标个性特征中的各个特征值的特征类型与所述预设数量的参考特征类型一一对应。
参考特征类型是目标个性特征中待出现的特征类型。也即是说,目标个性特征中的特征类型是按照参考特征类型来确定的。
参考特征类型可以根据需求进行设置。例如:个性特征中包括15个特征类型的特征值,工作人员需要确定目标人物在视频中的多个目标特征类型的特征值,而该多个目标特征类型为该15个特征类型中的前7个特征类型,那么可以将该前7个特征类型设置为参考特征类型,这样目标个性特征中可以仅包括该7个特征类型的特征值。
下面针对如何通过聚合处理确定目标个性特征的步骤进行描述。如图4所示,是根据本发明一实施例的确定目标个性特征的步骤流程图。
步骤s410,利用预设的滑动窗口在多帧目标图像中顺序选择图像区间;其中,在每个所述图像区间中包括所述多帧目标图像中的部分目标图像。
滑动窗口的宽度可以为经验值或者实验值。
具体的,获取的所有目标图像可以作为一个图像序列,使用滑动窗口在图像序列中顺序选择图像区间,每个图像区间为一个视频序列片段。
滑动窗口的宽度可以为预设时间长度。由于采样后的目标图像在时间上分布不均,每个滑动窗口内的目标图像数量有可能不同。
滑动窗口的宽度可以为预设图像数量。由于采样后的目标图像为一段图像序列,可以使用滑动窗口将该段图像序列划分为多个图像数量相同的图像区间。
步骤s420,在每个所述图像区间中,针对所述目标对象在各帧所述目标图像中分别对应的个性特征执行聚合处理(第一次聚合),将聚合出的相同的个性特征作为候选个性特征。
在各个所述目标图像分别对应的个性特征中,聚合相同的个性特征,将聚合出的相同个性特征作为候选个性特征。
候选个性特征的个数可以为多个。例如:经过聚合,第一个性特征的目标有3个,第二个性特征有5个,第三个性特征有1个,那么第一个性特征为一个候选个性特征,第二个性为另一个候选个性特征。
步骤s430,在多个所述图像区间中,针对候选个性特征执行聚合处理(第二次聚合),并且根据聚合出的相同的候选个性特征确定所述目标个性特征。
根据聚合出的相同的候选个性特征确定所述目标个性特征,包括:根据预设数量的参考特征类型,在聚合出的相同的候选个性特征中,确定出该预设数量的参考特征类型对应的特征值,形成目标个性特征。
进一步地,在针对所述候选个性特征执行聚合处理之前,还可以在每个所述图像区间中,确定所述候选个性特征在所述图像区间中的分布密度;在多个所述图像区间中,筛选出分布密度处于预设密度范围的候选个性特征,并且针对筛选出的所述候选个性特征执行聚合处理,根据聚合出的相同的候选个性特征确定所述目标个性特征。
分布密度,用于反映候选个性特征在单位时间出现的频次。在相对时间跨度较短的图像区间中,反映的是个性特征的集中程度。
密度范围的两个端值都可以是经验值或者实验值。
筛选出的候选个性特征是图像区间中具有代表性的个性特征,用于反映图像区间中较为显著的个性特征。
下面对如何确定分布密度的步骤进行进一步地描述。
每个图像区间包括多帧目标图像,每帧目标图像对应一个个性特征。对单个图像区间中的个性特征进行第一次聚合处理,可以确定能够形成集合的候选个性特征。
如图5所示,是根据本发明一实施例的确定分布密度的步骤流程图。针对每个图像区间中的每个候选个性特征执行以下步骤:
步骤s510,确定候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离。
对于一个图像区间,在除了该候选个性特征之外的每个个性特征中,针对每个个性特征,通过比较所述个性特征与所述候选个性特征的各个对应特征类型的特征值,确定每个所述对应特征类型对应的距离值;确定各个所述对应特征类型对应的距离值的和值,并所述和值作为所述个性特征与所述候选个性特征的编辑距离。
具体而言,在图像区间中的候选个性特征的数量为多个的情况下,针对每个候选个性特征确定编辑距离的过程可以采用如下步骤:
步骤s1,针对图像区间中除了候选个性特征的其余每个个性特征,比较所述个性特征与所述候选个性特征对应特征类型的特征值。其中,所述特征值为-1、0或者1。
步骤s2,在所述对应特征类型的特征值都为-1或者都为1时,确定所述对应特征类型的距离值为0。
步骤s3,在所述对应特征类型的特征值中,其中一个特征值为0时,确定所述对应特征类型的距离值为1。
步骤s4,在所述对应特征类型的特征值中,其中一个特征值为-1,另一个特征值为1时,确定所述对应特征类型的距离值为预设值。该预设值大于1。例如:该预设值为1000。
步骤s2至步骤s4为并列步骤。例如:候选个性特征v1与个性特征v2的编辑距离=σ1000(当v1i=-v2i),or1(当v1i*v2i=0),or0(当v1i=v2i),其中,i表示特征类型。
步骤s520,根据所述候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离,预设距离阈值以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。
在所述图像区间中除了所述候选个性特征的其余个性特征中,获取n个所述个性特征;其中,n个所述个性特征分别与所述候选个性特征之间的编辑距离小于预设距离阈值;根据n个所述个性特征中的每个所述个性特征在所述图像区间中的出现频次以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。具体可以通过如下公式确定所述候选个性特征的分布密度:
d=count(vin图像区间)÷duration(t);
其中,d表示所述候选个性特征的分布密度;v表示所述候选个性特征;count(vin图像区间)表示在v与所述图像区间中的其余每个个性特征之间的编辑距离中,与v的编辑距离小于所述距离阈值的个性特征的总出现频次;duration(t)表示所述滑动窗口的宽度。
具体而言,所述距离阈值的数量为多个,每个距离阈值对应一个级别的分布密度。确定所述候选个性特征对应每个所述距离阈值的分布密度(分级分布密度);根据所述候选个性特征对应每个所述距离阈值的分布密度,确定所述候选个性特征的分布密度(整体分布密度)。距离阈值越大,分布密度的级别越高,分布密度级别越高,代表对个性特征的区分度越粗略。
进一步地,候选个性特征的分布密度为各个分级分布密度的线性组合值。例如:分级分布密度表示为d(v,k),v为候选个性特征,k为分级分布密度对应的级别,候选个性特征的分布密度d(v)为各个级别的分布密度的加权求和值:d(v)=d(v,0) 0.8d(v,1) 0.5d(v,2) 0.2d(v,3) 0.1d(v,4)。其中,每个级别对应的权重为经验值或者实验值。
在确定每个图像区间中的每个候选个性特征的分布密度之后,可以对所有候选个性特征进行一次筛选,保留分布密度处于预设密度范围的候选个性特征,保留下来的候选个性特征更加具有代表性,对于保留下来的所有候选个性特征执行一次聚合处理,将相同的候选个性特征聚合在一起形成集合,将每个集合中的候选个性特征分别作为一个目标个性特征。也即是说,目标个性特征的数量可以为多个。
在本发明实施例中,个性特征中的每个特征类型对应语义相关的至少两个特征词,该特征类型的特征值对应该至少两个特征词中的一个特征词。由于目标个性特征是基于个性特征确定的,所以目标个性特征中的每个特征类型也要对应语义相关的至少两个特征词,该特征类型的特征值对应该至少两个特征词中的一个特征词。这样,在确定目标个性特征之后,可以将目标个性特征中每个特征类型的特征值对应的特征词,在预设的显示设备中进行展示。进一步地,可以预先设置特征类型-特征值-特征词对照表,这样,可以通过查表的方式,确定目标个性特征中每个特征类型的特征值对应的特征词。
当然,在个性特征中的每个特征类型对应一个特征词时,该特征类型的特征值对应目标对象与该特征词的匹配级别。由于目标个性特征是基于个性特征确定的,所以目标个性特征中的每个特征类型同样对应一个特征词,该特征类型的特征值同样对应目标对象与该特征词的匹配级别。这样,在确定目标个性特征之后,可以将目标个性特征中每个特征类型的特征值对应的特征词以及匹配级别,在预设的显示设备中进行展示。进一步地,可以预先设置特征类型-特征值-特征词对照表以及特征类型-特征值-匹配级别对照表,这样,可以通过查表的方式,确定目标个性特征中每个特征类型的特征值对应的特征词以及匹配级别。
在本发明实施例中,为了便于查看目标个性特征的显著表现形式,可以在确定所述目标对象在所述视频数据中对应的目标个性特征之后,确定所述目标个性特征对应的图像区间;在所述目标个性特征对应的图像区间中,选择预设第一数量的图像区间分别对应的视频片段作为所述目标对象对应的目标个性视频片段,并且在预设的第一显示设备中展示每个所述目标个性视频片段对应的视频展示数据。被选择的每个目标个性视频片段可以目标地呈现目标对象的个性特点。
进一步地,图像区间对应的视频片段是指:在视频数据中,处于图像区间的首帧目标图像和最后一帧目标图像之间的视频片段。
进一步地,在选择图像区间时,可以选择播放时间最靠前的图像区间,和/或,选择图像质量指标的平均值最大的图像区间,和/或,选择候选个性特征的分布密度平均值最大的图像区间,将选择的图像区间对应的视频片段作为目标个性视频片段。可以将该目标个性特征以及该目标个性视频片段在预设的第一显示设备中进行展示。
在本发明实施例中,为了便于查看目标个性特征对应的代表性图像,可以在确定所述目标对象在所述视频数据中对应的目标个性特征之后,确定所述目标个性特征对应的目标图像;在所述目标个性特征对应的目标图像中,选择预设第二数量的目标图像分别作为所述目标对象对应的目标个性视频图像,并且在预设的第二显示设备中展示每帧所述目标个性视频图像。第一显示设备和第二显示设备是相同或者不同的显示设备。
进一步地,由于个性特征是特征确定模型根据目标图像确定的,而且目标个性特征是基于个性特征确定的,所以,在确定目标个性特征之后,可以确定目标个性特征对应的所有目标图像,在目标个性特征对应的所有目标图像中,可以选择播放时间最靠前的目标图像,和/或,选择图像质量指标的最大的目标图像,和/或,选择分布密度最大的目标图像,将选择的目标图像作为目标对象对应的目标个性视频图像。可以将该目标个性特征以及该目标个性视频图像在预设的显示设备中进行展示。
本发明实施例图的像分析方法具有较多的应用场景。例如:可以应用在智能选角的场景中,可以应用在观察宠物性格(活泼,沉稳)的场景中,可以应用在根据客户个性推荐产品的场景中。
具体而言,可以获取待匹配对象对应的关键词;查询所述目标对象的所述目标个性特征对应的特征词;确定所述待匹配对象对应的关键词与所述目标对象对应的特征词之间的匹配度。
匹配度可以衡量目标对象与待匹配对象之间的个性相似程度。
进一步地,可以查询预设的特征词对照表,确定目标对象的所述目标个性特征对应的特征词。特征词对照表用于记录每个特征类型的特征值与特征词的对应关系。该特征词对照表包括但不限于:特征类型-特征值-特征词对照表以及特征类型-特征词对照表。在每个特征类型对应至少两个特征词时,可以使用特征类型-特征值-特征词对照表。在每个特征类型对应一个特征词时,可以使用特征类型-特征词对照表。
下面以智能选角为例进行说明。
所述目标对象为目标演员。所述待匹配对象为待匹配角色。
所述视频数据可以为目标演员的视频作品数据。这时,确定的目标个性特征为目标演员饰演的角色的个性特征。
在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,可以获取待匹配角色对应的关键词;确定所述待匹配角色对应的关键词与所述目标演员对应的目标个性特征之间的匹配度。根据该匹配度可以确定待匹配角色和目标演员之间的相似程度。
应用本发明实施例还可以进行演员推荐。具体的,所述目标对象为目标演员,并且所述目标演员的数量为多个。所述待匹配对象为待匹配角色。在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,可以获取待匹配角色对应的关键词;确定所述待匹配角色对应的关键词分别与每个所述目标演员对应的目标个性特征之间的匹配度,以便根据多个所述目标演员分别对应的匹配度执行演员推荐操作。
进一步地,演员推荐操作,包括:按照匹配度从大到小的顺序,对多个所述目标演员分别对应的匹配度进行排序,将排序结果在预设的显示设备中进行展示,以便选角人员参考。
进一步地,在确定目标演员与待匹配角色对应的匹配度之后,可以筛选出匹配度大于预设的匹配度阈值的目标演员,将所述目标演员对应的目标个性特征中每个特征类型的特征值对应的特征词展示在预设的显示设备中,从而实现选角推荐。例如:通过本实施例可以得出作品中演员饰演角色的个性特点为:针对陈道明在《庆余年》饰演的皇帝进行图像处理,得到的目标个性特征中的特征值对应的特征词为“高冷”和“多疑”。
当然,还可以将目标演员对应的目标个性视频片段和目标个性视频图像一同展示在该显示设备中。
进一步地,在确定所述目标对象在所述视频数据中对应的目标个性特征之前,确定待匹配角色以及该待匹配角色对应的关键词;根据该待匹配角色对应的关键词,设置参考特征类型,以便在确定的目标个性特征中包括该关键词对应的参考特征类型,使得待匹配角色对应的关键词和目标个性特征中的特征值具有可比较性。
在本实施例中,在智能选角过程中,本实施例从选角的基本原理出发,使用算法解读演员的作品,并从中得出目标演员的概括性的特征(目标个性特征),还可以选出代表性的片段(目标个性视频片段)和瞬间(目标个性视频图像),对具有主观性的人物气质进行了量化,通过算法理解视频数据中的人物的个性,节省了选角的时间,提高了选角的工作效率。
通过将本发明实施例应用在智能选角场景中,可以在线视频分发、影业、签约艺人、自媒体、宣发团队等方面,构建一体化的艺人信息发布与筛选平台,提高选角过程中的决策客观度,提高选角效率和质量。同时,也可以为头部明星,大量二、三线艺人以及演艺新人提供直接的个人信息批量渠道,进一步缩小艺人咖位与资源的不平衡性,提升拍片撮合效率,完成资源有效利用和配置,实现价值最大化。
本发明实施例还提供了一种图像处理装置。如图6所示,是根据本发明一实施例的图像处理装置的结构图。
该图像处理装置包括:接收和获取模块610,第一确定模块620和第二确定模块630。
接收和获取模块610,用于获取多帧目标图像;其中,在每帧所述目标图像中包括目标对象的图像。
第一确定模块620,用于利用预先训练得到的特征确定模型,确定所述目标对象在每帧所述目标图像中对应的个性特征。
第二确定模块630,用于对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征。
本发明实施例所述的装置的功能已经上述方法实施例中进行了描述,故本发明实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器710、通信接口720、存储器730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。
存储器730,用于存放计算机程序。
处理器710,用于执行存储器730上所存放的程序时,实现如下步骤:
获取多帧目标图像;其中,在每帧所述目标图像中包括目标对象的图像;利用预先训练得到的特征确定模型,确定所述目标对象在每帧所述目标图像中对应的个性特征;对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征。
其中,所述个性特征包括至少一个特征值;每个所述特征值对应一个特征类型;对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征,包括:根据预设数量的参考特征类型,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征;其中,所述目标个性特征中的特征值的数量小于或者等于所述个性特征中的特征值的数量,所述目标个性特征中的各个特征值的特征类型与所述预设数量的参考特征类型一一对应。
其中,对所述目标对象在每帧所述目标图像中对应的个性特征执行聚合处理,确定所述目标对象在所述多帧目标图像中对应的目标个性特征,包括:利用预设的滑动窗口在所述多帧目标图像中顺序选择图像区间;其中,在每个所述图像区间中包括所述多帧目标图像中的部分目标图像;在每个所述图像区间中,针对所述目标对象在各帧所述目标图像中分别对应的个性特征执行聚合处理,将聚合出的相同的个性特征作为候选个性特征;在多个所述图像区间中,针对所述候选个性特征执行聚合处理,并且根据聚合出的相同的候选个性特征确定所述目标个性特征。
其中,在针对所述候选个性特征执行聚合处理之前,还包括:在每个所述图像区间中,确定所述候选个性特征在所述图像区间中的分布密度;针对所述候选个性特征执行聚合处理,包括:在多个所述图像区间中,筛选出分布密度处于预设密度范围的候选个性特征,并且针对筛选出的所述候选个性特征执行聚合处理。
其中,确定所述候选个性特征在所述图像区间中的分布密度,包括:确定所述候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离;根据所述候选个性特征与所在图像区间中的其余每个个性特征之间的编辑距离,预设距离阈值以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。
其中,确定所述候选个性特征与所述图像区间中的其余每个个性特征之间的编辑距离,包括:针对每个所述个性特征,通过比较所述个性特征与所述候选个性特征的各个对应类型的特征值,确定每个所述对应类型对应的距离值;确定各个所述对应类型对应的距离值的和值,并所述和值作为所述个性特征与所述候选个性特征的编辑距离。
其中,根据所述候选个性特征与所述图像区间中的其余每个个性特征之间的编辑距离,预设距离阈值以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度,包括:在所述图像区间中除了所述候选个性特征的其余个性特征中,获取n个所述个性特征;其中,n个所述个性特征分别与所述候选个性特征之间的编辑距离小于预设距离阈值;根据n个所述个性特征中的每个所述个性特征在所述图像区间中的出现频次以及所述滑动窗口的宽度,确定所述候选个性特征的分布密度。
其中,所述距离阈值的数量为多个;确定所述候选个性特征的分布密度,包括:确定所述候选个性特征对应每个所述距离阈值的分布密度;根据所述候选个性特征对应每个所述距离阈值的分布密度,确定所述候选个性特征的分布密度。
其中,在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:确定所述目标个性特征对应的图像区间;在所述目标个性特征对应的图像区间中,选择预设第一数量的图像区间分别对应的视频片段作为所述目标对象对应的目标个性视频片段,并且在预设的第一显示设备中展示每个所述目标个性视频片段对应的视频展示数据。
其中,在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:确定所述目标个性特征对应的目标图像;在所述目标个性特征对应的目标图像中,选择预设第二数量的目标图像分别作为所述目标对象对应的目标个性视频图像,并且在预设的第二显示设备中展示每帧所述目标个性视频图像。
其中,在确定所述目标对象在所述多帧目标图像中对应的目标个性特征之后,还包括:获取待匹配对象对应的关键词;查询所述目标对象的所述目标个性特征对应的特征词;确定所述待匹配对象对应的关键词与所述目标对象对应的特征词之间的匹配度。
其中,所述目标对象为目标演员,并且所述目标演员的数量为多个;所述待匹配对象为待匹配角色;确定所述待匹配对象对应的关键词与所述目标对象对应的特征词之间的匹配度,包括:确定所述待匹配角色对应的关键词分别与每个所述目标演员对应的特征词之间的匹配度,以便根据多个所述目标演员分别对应的匹配度执行演员推荐操作。
其中,每个所述特征类型对应语义相关的至少两个特征词,所述特征类型的特征值对应所述至少两个特征词中的一个特征词;或者,每个所述特征类型对应一个特征词,所述特征类型的特征值对应所述目标对象与所述特征词的匹配级别。
上述终端提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图像处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图像处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。