本公开涉及视觉技术领域,尤其涉及一种多媒体资源的标签分类方法、装置、电子设备及存储介质。
背景技术:
标签分类是深度学习以及数据推荐业务的基础,相关技术中,一般基于数据的单模态特征进行标签分类,且用于标签分类的标签集合中的标签之间采用单一的树形结构。而面对多媒体数据时,由于多媒体数据包含图像、文本、声音等多模态特征,导致现有基于单模态的标签分类方式不能适用于多模态特征的数据;另外,多媒体数据的内容较为丰富,一般具有多个标签,相关技术中的树形结构的标签在对多媒体数据进行标签分类时,标签分类的精确度欠佳。
技术实现要素:
本公开提供一种多媒体资源的标签分类方法、装置、电子设备及存储介质,以至少解决相关技术中如何提高多媒体资源的标签分类精度的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体资源的标签分类方法,包括:
获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息;
将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息;
将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息;
将所述目标图文特征信息和所述目标标签特征描述信息进行特征融合处理,得到目标特征信息;
根据所述目标特征信息,从所述预设标签集合中确定至少一个标签作为所述多媒体资源的标签信息。
在一种可能的实现方式中,所述多模态特征提取模型包括图像特征提取模块、文本特征提取模块和特征融合模块;所述将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息步骤包括:
将所述目标图像输入所述图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;
将所述目标文本输入所述文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息;
将所述目标图像特征信息和所述目标文本特征信息输入所述特征融合模块,进行特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述图像特征提取模块包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层;所述将所述目标图像输入所述图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息步骤包括:
将所述目标图像输入所述卷积模块,进行特征提取处理,得到初始图像特征信息;
将所述初始图像特征信息输入所述第一降采样模块,进行降采样处理,得到第一尺度的第一图像特征信息;
将所述第一图像特征信息输入所述第二降采样模块,进行降采样处理,得到第二尺度的第二图像特征信息;
将所述第一图像特征信息输入所述第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;
将所述第二图像特征信息输入所述第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息;
将所述第三图像特征信息和所述第四图像特征信息作为所述目标图像特征信息。
在一种可能的实现方式中,所述文本特征提取模块包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层;所述将所述目标文本输入所述文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息步骤包括:
将所述目标文本输入所述第一文本特征提取单元,进行文本特征提取处理,得到第一文本特征信息;
将所述第一文本特征信息输入所述第二文本特征提取单元,进行文本特征提取处理,得到第二文本特征信息;
将所述第一文本特征信息输入所述第三全连接层,进行特征长度调整处理,得到预设长度的第三文本特征信息;
将所述第二文本特征信息输入所述第四全连接层,进行特征长度调整处理,得到预设长度的第四文本特征信息;
将所述第三文本特征信息和所述第四文本特征信息作为所述目标文本特征信息。
在一种可能的实现方式中,所述特征融合模块包括第一特征融合模块和第二特征融合模块;所述将所述目标图像特征信息和所述目标文本特征信息输入所述特征融合模块,进行特征融合处理,得到所述目标图文特征信息步骤包括:
将所述第三图像特征信息和所述第三文本特征信息输入所述第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;
将所述第四图像特征信息、所述第四文本特征信息和所述第一图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述图卷积网络包括第一图卷积模块和第二图卷积模块;所述将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息步骤包括:
将所述标签特征信息输入所述第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息;
将所述待处理标签特征描述信息输入所述第二图卷积模块,进行标签特征相关性处理,得到所述目标标签特征描述信息。
在一种可能的实现方式中,在所述将所述第三图像特征信息和所述第三文本特征信息输入所述第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息步骤之后,所述标签分类方法还包括:
将所述第一图文特征信息和所述待处理标签特征描述信息进行特征融合处理,得到第二图文特征信息;
所述将所述第四图像特征信息、所述第四文本特征信息和所述第一图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息步骤包括:
将所述第四图像特征信息、所述第四文本特征信息和所述第二图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述根据所述目标特征信息,从所述预设标签集合中确定至少一个标签作为所述多媒体资源的标签信息步骤包括:
将所述目标特征信息输入目标全连接层,进行分类处理,得到所述标签信息。
在一种可能的实现方式中,所述获取预设标签集合对应的标签特征信息步骤包括:
获取所述预设标签集合中两两标签间的标签相关性信息以及所述目标全连接层的权重信息;
将所述权重信息作为标签特征描述信息;
将所述标签相关性信息和所述标签特征描述信息作为所述预设标签集合对应的标签特征信息。
在一种可能的实现方式中,所述标签分类方法还包括:
获取多个样本多媒体资源和对应的样本标签;所述多个样本多媒体资源包括对应的多个样本图像和多个样本文本;
将所述多个样本图像和所述多个样本文本输入预设特征提取模型,进行特征提取处理,得到第一样本图文特征信息;
将所述第一样本图文特征信息输入预设全连接层,进行分类处理,得到第一预测标签;
根据所述样本标签和所述第一预测标签,获取第一损失信息;
根据所述第一损失信息训练所述预设特征提取模型和所述预设全连接层,直至所述第一损失信息满足预设条件,得到所述多模态特征提取模型和目标全连接层。
在一种可能的实现方式中,在所述获取多个样本多媒体资源和对应的样本标签步骤之后,所述标签分类方法还包括:
将所述多个样本图像和所述多个样本文本输入所述多模态特征提取模型,进行特征提取处理,得到第二样本图文特征信息;
将所述标签特征信息输入预设图卷积网络,进行标签特征相关性处理,得到样本标签特征描述信息;
将所述第二样本图文特征信息和所述样本标签特征描述信息进行特征融合处理,得到样本特征信息;
将所述样本特征信息输入所述目标全连接层,进行分类处理,得到第二预测标签;
根据所述样本标签和所述第二预测标签,获取第二损失信息;
根据所述第二损失信息训练所述预设图卷积网络,直至所述第二损失信息满足预设条件,得到所述图卷积网络。
根据本公开实施例的第二方面,提供一种多媒体资源的标签分类装置,包括:
模型输入信息获取模块,被配置为执行获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息;
目标图文特征信息获取模块,被配置为执行将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息;
目标标签特征描述信息获取模块,被配置为执行将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息;
目标特征信息获取模块,被配置为执行将所述目标图文特征信息和所述目标标签特征描述信息进行特征融合处理,得到目标特征信息;
标签信息获取模块,被配置为执行根据所述目标特征信息,从所述预设标签集合中确定至少一个标签作为所述多媒体资源的标签信息。
在一种可能的实现方式中,所述多模态特征提取模型包括图像特征提取模块、文本特征提取模块和特征融合模块;所述目标图文特征信息获取模块包括:
目标图像特征信息获取单元,被配置为执行将所述目标图像输入所述图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;
目标文本特征信息获取单元,被配置为执行将所述目标文本输入所述文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息;
目标图文特征信息获取单元,被配置为执行将所述目标图像特征信息和所述目标文本特征信息输入所述特征融合模块,进行特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述图像特征提取模块包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层;所述目标图像特征信息获取单元包括:
初始图像特征信息获取单元,被配置为执行将所述目标图像输入所述卷积模块,进行特征提取处理,得到初始图像特征信息;
第一图像特征信息获取单元,被配置为执行将所述初始图像特征信息输入所述第一降采样模块,进行降采样处理,得到第一尺度的第一图像特征信息;
第二图像特征信息获取单元,被配置为执行将所述第一图像特征信息输入所述第二降采样模块,进行降采样处理,得到第二尺度的第二图像特征信息;
第三图像特征信息获取单元,被配置为执行将所述第一图像特征信息输入所述第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;
第四图像特征信息获取单元,被配置为执行将所述第二图像特征信息输入所述第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息;
目标图像特征信息确定单元,被配置为执行将所述第三图像特征信息和所述第四图像特征信息作为所述目标图像特征信息。
在一种可能的实现方式中,所述文本特征提取模块包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层;所述目标文本特征信息获取单元包括:
第一文本特征信息获取单元,被配置为执行将所述目标文本输入所述第一文本特征提取单元,进行文本特征提取处理,得到第一文本特征信息;
第二文本特征信息获取单元,被配置为执行将所述第一文本特征信息输入所述第二文本特征提取单元,进行文本特征提取处理,得到第二文本特征信息;
第三文本特征信息获取单元,被配置为执行将所述第一文本特征信息输入所述第三全连接层,进行特征长度调整处理,得到预设长度的第三文本特征信息;
第四文本特征信息获取单元,被配置为执行将所述第二文本特征信息输入所述第四全连接层,进行特征长度调整处理,得到预设长度的第四文本特征信息;
目标文本特征信息确定单元,被配置为执行将所述第三文本特征信息和所述第四文本特征信息作为所述目标文本特征信息。
在一种可能的实现方式中,所述特征融合模块包括第一特征融合模块和第二特征融合模块;所述目标图文特征信息获取单元包括:
第一图文特征信息获取单元,被配置为执行将所述第三图像特征信息和所述第三文本特征信息输入所述第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;
第一目标图文特征信息获取单元,被配置为执行将所述第四图像特征信息、所述第四文本特征信息和所述第一图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述图卷积网络包括第一图卷积模块和第二图卷积模块;所述目标标签特征描述信息获取模块包括:
待处理标签特征描述信息获取单元,被配置为执行将所述标签特征信息输入所述第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息;
目标标签特征描述信息获取单元,被配置为执行将所述待处理标签特征描述信息输入所述第二图卷积模块,进行标签特征相关性处理,得到所述目标标签特征描述信息。
在一种可能的实现方式中,所述标签分类装置还包括:
第二图文特征信息获取模块,被配置为执行将所述第一图文特征信息和所述待处理标签特征描述信息进行特征融合处理,得到第二图文特征信息;
所述目标图文特征信息获取单元还包括:
第二目标图文特征信息获取单元,被配置为执行将所述第四图像特征信息、所述第四文本特征信息和所述第二图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,所述标签信息获取模块包括:
标签信息获取单元,被配置为执行将所述目标特征信息输入目标全连接层,进行分类处理,得到所述标签信息。
在一种可能的实现方式中,所述模型输入信息获取模块包括:
标签相关性信息和权重信息获取单元,被配置为执行获取所述预设标签集合中两两标签间的标签相关性信息以及所述目标全连接层的权重信息;
标签特征描述信息获取单元,被配置为执行将所述权重信息作为标签特征描述信息;
标签特征信息获取单元,被配置为执行将所述标签相关性信息和所述标签特征描述信息作为所述预设标签集合对应的标签特征信息。
在一种可能的实现方式中,所述标签分类装置还包括:
训练数据获取模块,被配置为执行获取多个样本多媒体资源和对应的样本标签;所述多个样本多媒体资源包括对应的多个样本图像和多个样本文本;
第一样本图文特征信息获取模块,被配置为执行将所述多个样本图像和所述多个样本文本输入预设特征提取模型,进行特征提取处理,得到第一样本图文特征信息;
第一预测标签获取模块,被配置为执行将所述第一样本图文特征信息输入预设全连接层,进行分类处理,得到第一预测标签;
第一损失信息获取模块,被配置为执行根据所述样本标签和所述第一预测标签,获取第一损失信息;
第一训练模块,被配置为执行根据所述第一损失信息训练所述预设特征提取模型和所述预设全连接层,直至所述第一损失信息满足预设条件,得到所述多模态特征提取模型和目标全连接层。
在一种可能的实现方式中,所述标签分类装置还包括:
第二样本图文特征信息获取模块,被配置为执行将所述多个样本图像和所述多个样本文本输入所述多模态特征提取模型,进行特征提取处理,得到第二样本图文特征信息;
样本标签特征描述信息获取模块,被配置为执行将所述标签特征信息输入预设图卷积网络,进行标签特征相关性处理,得到样本标签特征描述信息;
样本特征信息获取模块,被配置为执行将所述第二样本图文特征信息和所述样本标签特征描述信息进行特征融合处理,得到样本特征信息;
第二预测标签获取模块,被配置为执行将所述样本特征信息输入所述目标全连接层,进行分类处理,得到第二预测标签;
第二损失信息获取模块,被配置为执行根据所述样本标签和所述第二预测标签,获取第二损失信息;
第二训练模块,被配置为执行根据所述第二损失信息训练所述预设图卷积网络,直至所述第二损失信息满足预设条件,得到所述图卷积网络。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面中任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时,使得计算机执行本公开实施例的第一方面中任一项所述方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过多模态特征提取模型得到待处理多媒体资源的目标图文特征信息,能够有效地适用于多媒体资源的标签分类;并且,通过结合图卷积网络对标签特征进行相关性处理以及将目标图文特征信息和目标标签特征描述信息进行特征融合处理,实现了多媒体资源的多模态特征与标签特征信息的相关性融合,使得目标特征信息具有更丰富的语义表达以及能够更精准的表征多媒体资源的内容,即可以提升对多媒体资源内容的理解度,从而可以提高多媒体资源标签分类的精确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用环境的示意图。
图2是根据一示例性实施例示出的一种多媒体资源的标签分类方法的流程图。
图3是根据一示例性实施例示出的一种标签分类模型的结构示意图。
图4是根据一示例性实施例示出的一种将目标图像和目标文本输入多模态特征提取模型,进行特征提取处理,得到待处理多媒体资源的目标图文特征信息的方法流程图。
图5是根据一示例性实施例示出的一种获取预设标签集合对应的标签特征信息的方法流程图。
图6是根据一示例性实施例示出的一种标签分类模型的结构示意图。
图7是根据一示例性实施例示出的一种将目标图像输入图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息的方法流程图。
图8是根据一示例性实施例示出的一种将目标文本输入文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息的方法流程图。
图9是根据一示例性实施例示出的一种将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息的方法流程图。
图10是根据一示例性实施例示出的一种将标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息的方法流程图。
图11是根据一示例性实施例示出的一种将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息的方法流程图。
图12是根据一示例性实施例示出的一种标签分类模型的结构示意图。
图13是根据一示例性实施例示出的一种多模态特征提取模型和目标全连接层的训练方法流程图。
图14是根据一示例性实施例示出的一种预设特征提取模型和预设全连接层的架构图。
图15是根据一示例性实施例示出的一种图卷积网络的训练流程图。
图16是根据一示例性实施例示出的一种预设标签分类模型的架构图。
图17是根据一示例性实施例示出的一种多媒体资源的标签分类装置框图。
图18是根据一示例性实施例示出的一种用于多媒体资源的标签分类的电子设备的框图。
图19是根据一示例性实施例示出的一种用于多媒体资源的标签分类的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
在一个可选的实施例中,服务器01可以用于多模态特征提取模型和图卷积网络gcn(graphconvolutionalnetwork)的训练;或者用于标签分类模型的训练,该标签分类模型可以包括多模态特征提取模型、图卷积网络以及目标全连接层。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(contentdeliverynetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端02可以结合服务器01用于执行多媒体资源的标签分类方法,其中,终端02使用的多模态特征提取模型和图卷积网络可以是服务器01训练好后发送给终端02的。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmentedreality,ar)/虚拟现实(virtualreality,vr)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的图像处理方法的一种应用环境。例如,服务器01可以执行多媒体资源的标签分类方法;终端02可以执行多模态特征提取模型和图卷积网络的训练。本公开对此不作限定。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图2是根据一示例性实施例示出的一种多媒体资源的标签分类方法的流程图。如图2所示,可以包括以下步骤。
在步骤s201中,获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息。
本说明书实施例中,预设标签集合可以是包括预设数量标签的集合,可以根据实际需求或统计,得到预设数量的标签,从而可以将该预设数量的标签作为预设标签集合。进一步地,可以使用该预设标签集合中的标签为待处理多媒体资源进行标签分类。
实际应用中,标签特征信息可以是指预设标签集合中的标签的有向图,该有向图的边可以是指标签间具有相关性,该有向图的点可以是预设标签集合中的各标签,各标签可以通过特征向量进行描述,边的权重可以根据统计方式获取,从而可以将各标签的特征向量、各标签之间的边和边的权重作为该有向图,并可以将该有向图作为标签特征信息。该有向图可以是矩阵或向量的形式,本公开对这些均不作限定。
在一个示例中,该预设标签集合可以表示为[标签1,标签2,……,标签n],n为预设数量,例如可以为100、284等,本公开对此不作限定。
实际应用中,可以将需要进行标签分类的多媒体资源作为待处理多媒体资源,例如可以将需要进行标签分类的短视频作为待处理多媒体资源。并可以获取与待处理多媒体资源相关的一幅图像作为待处理多媒体资源对应的目标图像。以及可以获取与待处理多媒体资源相关的文本作为待处理多媒体资源对应的目标文本。其中,目标图像可以是指能够表征待处理多媒体资源的内容的图像。例如,当待处理多媒体资源为短视频时,可以将短视频的封面图像作为目标图像以及将与短视频相关的文本作为目标文本。这里短视频相关的文本可以包括短视频中的文本、短视频的标题文本、短视频的描述文本、短视频中音频对应的文本等,本公开对此不作限定。
可选地,可以将待处理多媒体资源相关的一幅图像压缩成第一预设像素的预设格式的图像,可以对该压缩成第一预设像素的预设格式的图像进行随机裁剪,得到第二预设像素的预设格式的图像,并可以将该第二预设像素的预设格式的图像作为目标图像。在一个示例中,第一预设像素可以是256*256,第二预设像素可以是224*224,预设格式可以是rgb(red、green、blue,红绿蓝三原色)格式。本公开对第一预设像素、第二预设像素和预设格式均不作限定,只要目标图像能够满足多模态特征提取模型的输入即可。
在步骤s203中,将目标图像和目标文本输入多模态特征提取模型,进行特征提取处理,得到待处理多媒体资源的目标图文特征信息。
本说明书实施例中,可以将目标图像和目标文本输入多模态特征提取模型,进行特征提取处理,得到待处理多媒体资源的目标图文特征信息。例如可以进行图像特征和文本特征的提取处理,并可以对图像特征和文本特征进行融合处理,得到目标文本特征信息。其中,目标文本特征信息可以是特征向量或特征矩阵,本公开对此不作限定。
在步骤s205中,将标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息。
本说明书实施例中,可以将标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息。例如,可以将预设标签集合中标签的有向图输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息。
在步骤s207中,将目标图文特征信息和目标标签特征描述信息进行特征融合处理,得到目标特征信息。
本说明书实施例中,可以将目标图文特征信息和目标标签特征描述信息进行特征融合处理,得到目标特征信息。在一个示例中,可以将目标图文特征信息和目标标签特征描述信息进行相乘处理以实现该特征融合处理,得到目标特征信息。该相乘处理可以是矩阵相乘处理,本公开对此不作限定。
其中,该目标特征信息可以表征多模态的目标图文特征信息与进行标签特征相关性处理后的目标标签特征描述信息进行融合的特征信息,该目标特征信息可以用于表征待处理多媒体资源的标签信息。
在步骤s209中,根据目标特征信息,从预设标签集合中确定至少一个标签作为多媒体资源的标签信息。
本说明书实施例中,可以根据目标特征信息,从预设标签集合中确定至少一个标签作为多媒体资源的标签信息。在一个示例中,当根据目标特征信息,从预设标签集合中确定的至少一个标签包括标签1和标签2时,该标签信息可以表示为[1,1,0,……,0],即可以将预设标签集合中的标签1和标签2置为1,其它标签置为0。或者,也可以确定标签信息为标签1和标签2。本公开对标签信息的形式不作限定。
在一种可能的实现方式中,步骤s209可以包括:将目标特征信息输入目标全连接层,进行分类处理,得到标签信息。通过目标全连接层进行标签分类处理,可以提高标签信息的精度以及标签分类的效率。
可选地,可以利用标签信息为待处理多媒体资源打标签,或者可以基于标签信息,进行多媒体资源的推荐和多媒体资源的搜索等。
通过多模态特征提取模型得到待处理多媒体资源的目标图文特征信息,能够有效地适用于多媒体资源的标签分类;并且,通过结合图卷积网络对标签特征进行相关性处理以及将目标图文特征信息和目标标签特征描述信息进行特征融合处理,实现了多媒体资源的多模态特征与标签特征信息的相关性融合,使得目标特征信息具有更丰富的语义表达以及能够更精准的表征多媒体资源的内容,即可以提升对多媒体资源内容的理解度,从而可以提高多媒体资源标签分类的精确度。
图3是根据一示例性实施例示出的一种标签分类模型的结构示意图。图4是根据一示例性实施例示出的一种将目标图像和目标文本输入多模态特征提取模型,进行特征提取处理,得到待处理多媒体资源的目标图文特征信息的方法流程图。
在一种可能的实现方式中,如图3所示,该标签分类模型可以包括多模态特征提取模型和图卷积网络。多模态特征提取模型可以包括图像特征提取模块、文本特征提取模块和特征融合模块。
在图3的多模态特征提取模型的基础上,如图4所示,在一种可能的实现方式中,上述步骤s203可以包括:
在步骤s401中,将目标图像输入图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;
在步骤s403中,将目标文本输入文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息;
在步骤s405中,将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息。
本说明书实施例中,可以将目标图像g输入图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;以及可以将目标文本t输入文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息。进一步地,可以将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息。
可选地,参照图3,矩阵相乘模块
在一个示例中,图像特征提取模块可以是图像特征提取神经网络,该图像特征提取神经网络的骨干网络可以是残差网络resnet-50,这里的残差网络resnet-50可以包括50个卷积层和4个降采样模块(4个block);文本特征提取模块可以是文本特征提取神经网络,该文本特征提取神经网络的骨干网络可以是bert(bidirectionalencoderrepresentationfromtransformers)网络,该bert网络可以包括12个隐含层;特征融合模块可以用于特征融合的神经网络,例如可以是包括注意力层的网络。本公开对这些均不作限定。
通过设置多模态特征提取模型包括图像特征提取模块、文本特征提取模块和特征融合模块,可以高效地对图像和文本的多模态特征进行提取和融合,提高目标图文特征信息的获取效率和准确度。
图5是根据一示例性实施例示出的一种获取预设标签集合对应的标签特征信息的方法流程图。如图5所示,在一种可能的实现方式中,该步骤s201可以包括以下步骤:
在步骤s501中,获取预设标签集合中两两标签间的标签相关性信息以及目标全连接层的权重信息。
本说明书实施例中,可以通过统计的方式获取预设标签集合中两两标签间的标签相关性信息。例如,该标签相关性信息可以是两两标签的条件概率p构成的方阵,比如n*n的方阵,n可以为预设标签集合中标签的数量。作为一个示例,n可以为3,预设标签集合中标签包括篮球、男生、女生。标签相关性信息al可以为
本说明书实施例中,可以获取目标全连接层的权重信息,例如可以获取图3中目标全连接层的权重信息。该权重信息可以为d*n的矩阵,d可以为目标特征信息的维度,n可以为预设标签集合中标签的数量。
在步骤s503中,将权重信息作为标签特征描述信息;
在步骤s505中,将标签相关性信息和标签特征描述信息作为预设标签集合对应的标签特征信息。
本说明书实施例中,可以将权重信息作为标签特征描述信息hl,并可以将标签相关性信息和标签特征描述信息作为预设标签集合对应的标签特征信息。相应地,al可以作为上述有向图的边和对应的权重,hl可以作为上述有向图的顶点。
通过将两两标签的条件概率作为标签相关性信息、将目标全连接层的权重信息作为标签特征描述信息,实现了对标签的有向图表达,从而得到图卷积网络的输入;并且,将目标全连接层的权重信息作为标签特征描述信息,可以使标签特征描述信息具备与实际数据分布相一致的语义,并可以避免文本单模态对标签特征描述的偏差,同时可以使得标签特征描述信息的获取更加便捷高效。
图6是根据一示例性实施例示出的一种标签分类模型的结构示意图。如图6所示,在一种可能的实现方式中,图像特征提取模块可以包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层;文本特征提取模块可以包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层;特征融合模块可以包括第一特征融合模块和第二特征融合模块;图卷积网络可以包括第一图卷积模块和第二图卷积模块。可选地,如图6所示,标签分类模型还可以包括第一卷积网络、第二卷积网络和目标全连接层。本公开对标签分类模型的结构不作限定。
图7是根据一示例性实施例示出的一种将目标图像输入图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息的方法流程图。如图7所示,在一种可能的实现方式中,该步骤s401可以包括以下步骤:
在步骤s701中,将目标图像输入卷积模块,进行特征提取处理,得到初始图像特征信息。
本说明书实施例中,可以将目标图像输入卷积模块,进行特征提取处理,得到初始图像特征信息。在一个示例中,该卷积模块可以是resnet-50的50个卷积层。这里仅仅是一个示例,不对本公开进行限定。
在步骤s703中,将初始图像特征信息输入第一降采样模块,进行降采样处理,得到第一尺度的第一图像特征信息;
在步骤s705中,将第一图像特征信息输入第二降采样模块,进行降采样处理,得到第二尺度的第二图像特征信息。
本说明书实施例中,可以将初始图像特征信息输入第一降采样模块,进行降采样处理,例如进行1/2降采样处理,得到第一尺度的第一图像特征信息;以及可以将第一图像特征信息输入第二降采样模块,进行降采样处理,例如进行1/2降采样处理,得到第二尺度的第二图像特征信息。
其中,第一尺度可以是指第一图像特征信息的特征长度,第二尺度可以是指第二图像特征信息的特征长度,第二尺度可以比第一尺度长,本公开对第一尺度和第二尺度不作限定。
在步骤s707中,将第一图像特征信息输入第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;
在步骤s709中,将第二图像特征信息输入第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息;
在步骤s711中,将第三图像特征信息和第四图像特征信息作为目标图像特征信息。
实际应用中,为了适应在特征融合模块中与目标文本特征信息的融合,可以设置目标图像特征信息的特征长度与目标文本特征信息的特征长度相同。该预设长度可以为512,本公开对此不作限定。
本说明书实施例中,如图6所示,可以将第一图像特征信息输入第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;并可以将第二图像特征信息输入第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息。从而可以将第三图像特征信息和第四图像特征信息作为目标图像特征信息。
通过设置图像特征提取模块包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层,可以实现对图像特征的深度提取,使得目标图像特征信息更加精准。
图8是根据一示例性实施例示出的一种将目标文本输入文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息的方法流程图。如图8所示,在一种可能的实现方式中,该步骤s403可以包括以下步骤:
在步骤s801中,将目标文本输入第一文本特征提取单元,进行文本特征提取处理,得到第一文本特征信息;
在步骤s803中,将第一文本特征信息输入第二文本特征提取单元,进行文本特征提取处理,得到第二文本特征信息。
本说明书实施例中,可以将目标文本输入第一文本特征提取单元,得到第一文本特征信息,并可以将第一文本特征信息输入第二文本特征提取单元,得到第二文本特征信息。在一个示例中,第一文本特征提取单元可以为bert网络的预设层数的隐含层、第二文本特征提取单元可以为bert网络的预设层数的隐含层,该预设层数可以为3,本公开对此不作限定。在第一文本特征提取单元可以为bert网络的预设层数的隐含层、第二文本特征提取单元可以为bert网络的预设层数的隐含层的情况下,第一文本特征信息可以是第一文本特征提取单元中的[cls]标记符号输出的特征,第二文本特征信息可以是第二文本特征提取单元中的[cls]标记符号输出的特征。在一个示例中,第一文本特征信息和第二文本特征信息的特征长度可以为768,本公开对此不作限定。
可选地,当第一文本特征提取单元为bert网络的预设层数的隐含层时,可以将目标文本输入bert网络的输入层,从而将该输入层的输出作为第一文本特征提取单元的输入。
在步骤s805中,将第一文本特征信息输入第三全连接层,进行特征长度调整处理,得到预设长度的第三文本特征信息;
在步骤s807中,将第二文本特征信息输入第四全连接层,进行特征长度调整处理,得到预设长度的第四文本特征信息;
在步骤s809中,将第三文本特征信息和第四文本特征信息作为目标文本特征信息。
本说明书实施例中,可以分别对第一文本特征信息和第二文本特征信息进行特征长度调整处理,得到预设长度的第三文本特征信息和预设长度的第四文本特征信息,从而得到预设长度的目标文本特征信息,以适于在特征融合模块中进行融合处理。
通过设置文本特征提取模块包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层,实现对文本特征的深度提取,提高了目标文本特征信息的提取效率和精度。
图9是根据一示例性实施例示出的一种将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息的方法流程图。如图9所示,在一种可能的实现方式中,该步骤s405可以包括以下步骤:
在步骤s901中,将第三图像特征信息和第三文本特征信息输入第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;
在步骤s903中,将第四图像特征信息、第四文本特征信息和第一图文特征信息输入第二特征融合模块,进行图文特征融合处理,得到目标图文特征信息。
本说明书实施例中,可以将第三图像特征信息和第三文本特征信息输入第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;并可以将第四图像特征信息、第四文本特征信息和第一图文特征信息输入第二特征融合模块,进行图文特征融合处理,得到目标图文特征信息。其中,第一特征融合模块和第二特征融合模块可以为多头注意力层,本公开对此不作限定。
通过设置特征融合模块包括第一特征融合模块和第二特征融合模块,可以从视觉和文本的浅层语义特征至深层语义特征进行层层融合,充分实现了多模态特征的融合,保证了各尺度图文特征的有效表达,使得目标图文特征信息更加精准。
图10是根据一示例性实施例示出的一种将标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息的方法流程图。如图10所示,在一种可能的实现方式中,该步骤s205可以包括以下步骤:
在步骤s1001中,将标签特征信息输入第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息。
本说明书实施例中,可以将标签特征信息输入第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息。
在一个示例中,在标签特征信息包括标签相关性信息和标签特征描述信息的情况下,可以通过下面公式(1)实现标签特征相关性处理,得到待处理标签特征描述信息hl 1:
hl 1=al*hl*wl(1)
其中,al为标签相关性信息,hl为标签特征描述信息,wl为第一图卷积模块的参数,在一个示例中,wl∈rd*d,d可以为上述预设长度,例如512。
在步骤s1003中,将待处理标签特征描述信息输入第二图卷积模块,进行标签特征相关性处理,得到目标标签特征描述信息。
本说明书实施例中,可以将待处理标签特征描述信息输入第二图卷积模块,进行标签特征相关性处理,得到目标标签特征描述信息。
通过设置图卷积网络包括第一图卷积模块和第二图卷积模块,从而可以利用第一图卷积模块和第二图卷积模块对标签相关性信息和标签特征描述信息进行由浅入深的标签特征相关性处理,可以得到更加精准的目标标签特征描述信息,提高了目标标签特征描述信息的提取效率和精度。
图11是根据一示例性实施例示出的一种将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息的方法流程图。如图11所示,在步骤s901之后,该标签分类方法还可以包括以下步骤:
在步骤s1101中,将第一图文特征信息和待处理标签特征描述信息进行特征融合处理,得到第二图文特征信息。
在一个示例中,如图6所示,可以将第一图文特征信息和待处理标签特征描述信息进行矩阵相乘,得到第一待处理图文特征信息。并可以将第一待处理图文特征信息输入第一卷积网络,进行卷积处理,得到第二图文特征信息。
相应地,步骤s903可以包括:
在步骤s1103中,将第四图像特征信息、第四文本特征信息和第二图文特征信息输入第二特征融合模块,进行图文特征融合处理,得到目标图文特征信息。该步骤的实现方式可以参见步骤s901,在此不再赘述。
进一步地,s207可以包括:将目标图文特征信息和目标标签特征描述信息进行矩阵相乘,得到第四待处理图文特征信息。并可以将第四待处理图文特征信息输入第二卷积网络,进行卷积处理,得到预设长度的目标特征信息。
通过对多模态特征与图卷积特征的多尺度融合,保证了标签多模态特征与标签间相关性的充分融合,使得高层特征拥有更丰富的语义表达,即得到的目标图文特征信息可以拥有更丰富的语义表达,从而可以有效地用于具有丰富内容的多媒体资源的标签分类,提高多媒体资源的标签分类的准确度。
在一种可能的实现方式中,为了进一步实现图像特征和文本特征的深度融合,可以增加多模态特征提取模型的深度和图卷积网络的深度。例如,如图12所示,可以设置多模态特征提取模型的深度和图卷积网络的深度为4,即进行4次图像特征、文本特征和标签特征信息的融合。通过4次由浅入深的融合,可以进一步提高多媒体资源特征分类的精确度。本公开对多模态特征提取模型的深度和图卷积网络的深度不作限定。
作为一个示例,如图12所示,图像特征提取模块可以包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块、第二全连接层、第三降采样模块、第五全连接层、第四降采样模块、第七全连接层。卷积模块、第一降采样模块、第二降采样模块、第三降采样模块、第四降采样模块可以依次相连;第一降采样模块可以通过第一全连接层与第一特征融合模块连接,第二降采样模块可以通过第二全连接层与第二特征融合模块连接,第三降采样模块可以通过第五全连接层与第三特征融合模块连接,第四降采样模块可以通过第七全连接层与第四特征融合模块连接。
如图12所示,文本特征提取模块可以包括依次连接的第一文本特征提取单元、第二文本特征提取单元、第三文本特征提取单元和第四文本特征提取单元;第一文本特征提取单元可以通过第三全连接层与第一特征融合模块连接,第二文本特征提取单元可以通过第四全连接层与第二特征融合模块连接,第三文本特征提取单元可以通过第六全连接层与第三特征融合模块连接,第四文本特征提取单元可以通过第八全连接层与第四特征融合模块连接。
如图12所示,特征融合模块可以包括第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块;图卷积网络可以包括第一图卷积模块、第二图卷积模块、第三图卷积模块、第四图卷积模块。可选地,如图12所示,标签分类模型还可以包括第一卷积网络、第二卷积网络、第三卷积网络、第四卷积网络和目标全连接层。本公开对标签分类模型的结构不作限定。
参照图12所示,标签分类模型还包括矩阵相乘模块
如图12所示,可以将目标图像g输入卷积模块,可以得到第一降采样模块、第二降采样模块、第三降采样模块、第四降采样模块的输出分别为第一图像特征信息、第二图像特征信息、第五图像特征信息、第六图像特征信息。第一全连接层、第二全连接层、第五全连接层、第七全连接层的输出分别为第三图像特征信息、第四图像特征信息、第七图像特征信息、第八图像特征信息。
第一文本特征提取单元、第二文本特征提取单元、第三文本特征提取单元和第四文本特征提取单元的输出分别为第一文本特征信息、第二文本特征信息、第五文本特征信息、第六文本特征信息;第三全连接层、第四全连接层、第六全连接层、第八全连接层的输出分别为第三文本特征信息、第四文本特征信息、第七文本特征信息、第八文本特征信息。
本说明书实施例中,将al,hl输入第一图卷积模块,第一图卷积模块、第二图卷积模块、第三图卷积模块、第四图卷积模块的输出分别为第一标签特征描述信息、第二标签特征描述信息、第三标签特征描述信息、第四标签特征描述信息。
第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块的输出分别为第一图文特征信息、第三待处理图文特征信息、第六待处理图文特征信息、第九待处理图文特征信息;
第一矩阵相乘模块、第二矩阵相乘模块、第三矩阵相乘模块、第四矩阵相乘模块的输出分别为第一待处理图文特征信息、第四待处理图文特征信息、第七待处理图文特征信息、第十待处理图文特征信息;
第一卷积网络、第二卷积网络、第三卷积网络、第四卷积网络的输出分别为第二待处理图文特征信息(上述第二图文特征信息)、第五待处理图文特征信息、第八待处理图文特征信息、目标特征信息。
上述图12的处理过程可以参见上述图6-11的相关内容,在此不再赘述。
其中,第一图像特征信息、第二图像特征信息、第五图像特征信息、第六图像特征信息对应的特征长度(第一尺度、第二尺度、第三尺度和第四尺度)可以分别为256、512、1024、2048;相应地,第一全连接层、第二全连接层、第五全连接层、第七全连接层对应的权重信息的行和列可以分别为256*512、512*512、1024*512、2048*512。第三全连接层、第四全连接层、第六全连接层、第八全连接层的输出的特征长度也可以是512。这样可以保证输入特征融合模块的目标图像特征信息的特征长度与目标文本特征信息的长度是一致的。
可选地,可以将第一降采样模块通过第一池化层连接第一全连接层;相应地,第二降采样模块可以通过第二池化层连接第二全连接层;第三降采样模块可以通过第三池化层连接第五全连接层;第四降采样模块可以通过第四池化层连接第七全连接层。这里的第一池化层、第二池化层、第三池化层和第四池化层可以作均值池化处理,本公开对此不作限定。
以上是利用训练好的多模态特征提取模型、目标全连接层和图卷积网络进行标签分类的内容,对于多模态特征提取模型、目标全连接层和图卷积网络的训练,即对标签分类模型的训练在下面介绍,可参见图13和图15的内容。其中,在对标签分类模型进行训练时,可以先对预设特征提取模型和预设全连接层进行训练以得到多模态特征提取模型和目标全连接层,如图14所示的预设特征提取模型和预设全连接层的架构图,可以基于该图14的架构图,训练得到多模态特征提取模型和目标全连接层。进一步地,可以基于该训练好的多模态特征提取模型和目标全连接层,构建如图16所示的预设标签分类模型,可以固定训练好的多模态特征提取模型和目标全连接层,对预设图卷积网络进行训练以得到图卷积网络。通过上述两部分的训练,可以得到标签分类模型。
图13是根据一示例性实施例示出的一种多模态特征提取模型和目标全连接层的训练方法流程图。如图13所示,在一种可能的实现方式中,可以包括以下步骤:
在步骤s1301中,获取多个样本多媒体资源和对应的样本标签。
本说明书实施例中,可以获取多个样本多媒体资源,并可以为每个样本多媒体资源标注样本标签,使得样本多媒体资源具有对应的样本标签。该样本标签可以是预设标签集合中的至少一个标签。该样本标签可以为[1,0,1,……,0],这可以表示该样本标签为预设标签集合中的标签1和标签3。
其中,多个样本多媒体资源可以包括对应的多个样本图像和多个样本文本。实际应用中,可以获取能够表征每个样本多媒体资源的内容的图像作为每个样本多媒体资源对应的样本图像。例如可以获取样本短视频的封面图像作为样本短视频对应的样本图像。并可以获取与每个样本多媒体资源相关的文本作为每个样本多媒体资源对应的样本文本。具体可以参见上述步骤s201,在此不再赘述。
在步骤s1303中,将多个样本图像和多个样本文本输入预设特征提取模型,进行特征提取处理,得到第一样本图文特征信息。
本说明书实施例中,该步骤的实现方式可以参见上述步骤s203,在此不再赘述。
在步骤s1305中,将第一样本图文特征信息输入预设全连接层,进行分类处理,得到第一预测标签。
本说明书实施例中,预设全连接层的输出维度可以为n,n可以为预设标签集合中的标签的数量。预设全连接层的权重可以是预设长度d*n的矩阵,本公开对此不作限定。可以将第一样本图文特征信息输入预设全连接层,进行分类处理,得到第一预测标签。
在步骤s1307中,根据样本标签和第一预测标签,获取第一损失信息。
本说明书实施例中,可以将样本标签与第一预测标签的差异信息作为第一损失信息,本公开对此不作限定。
在一个示例中,可以根据下面公式(2)获取第一损失信息loss:
loss=-ln∑i(yi),whereti=1;(2)
其中,yi可以是第一预测标签中第i个标签的概率值;ti可以是指样本标签中的第i个标签;该样本标签可以是标签集合[标签1,标签2,……,标签n]的表现形式,n可以大于1,i的范围可以为[1,n]。样本标签可以包括ti=1对应的标签,例如样本标签为[1,0,……,1],相应的样本标签可以包括标签1和标签n。也就是说,对于一个样本多媒体资源的第一损失信息,可以通过计算该一个样本多媒体资源的第一预测标签中与样本标签对应的概率值,得到第一损失信息。
举例来说,当n为3、标签集合为[篮球,男生,女生],一个样本多媒体资源对应的样本标签为篮球和男生,那么该一个样本多媒体资源对应的样本标签可以表示为[1,1,0]。在这种情况下,公式(2)可以是计算i=1和i=2时的损失,即loss=-ln(y1 y2)。
在步骤s1309中,根据第一损失信息训练预设特征提取模型和预设全连接层,直至第一损失信息满足预设条件,得到多模态特征提取模型和目标全连接层。
本说明书实施例中,可以根据第一损失信息得到第一梯度信息,从而可以利用梯度反向传输方法,调整预设特征提取模型的参数和预设全连接层的参数,实现对预设特征提取模型和预设全连接层的训练,直至第一损失信息满足预设条件,得到多模态特征提取模型和目标全连接层。其中,预设条件可以是第一损失信息小于损失阈值,或者预设条件可以是第一损失信息不再减小。本公开对此不作限定。
在一个示例中,可以使用sgd(stochasticgradientdescent,随机梯度下降法)得到第一梯度信息,初始化学习率可以为0.1,上述训练过程在经过12个epoch后,第一损失信息可以趋于平稳,即不再增加,可以终止训练,得到多模态特征提取模型和目标全连接层。这里仅仅是一个示例,不对本公开进行限定。
通过将样本图像和样本文本作为预设特征提取模型的输入,实现了对预设特征提取模型的多模态特征提取的训练,使得训练好的多模态特征提取模型可以适用于多媒体资源的多模态特征提取,可以提高特征提取的准确性,进而结合目标全连接层,可以提高多媒体资源的标签分类的精度。
图15是根据一示例性实施例示出的一种图卷积网络的训练流程图。如图15所示,在一种可能的实现方式中,在上述步骤s1301之后,可以包括以下步骤:
在步骤s1501中,将多个样本图像和多个样本文本输入多模态特征提取模型,进行特征提取处理,得到第二样本图文特征信息。该步骤的实现方式可以参见上述步骤s203,在此不再赘述。
在步骤s1503中,将标签特征信息输入预设图卷积网络,进行标签特征相关性处理,得到样本标签特征描述信息;
在步骤s1505中,将第二样本图文特征信息和样本标签特征描述信息进行特征融合处理,得到样本特征信息;
在步骤s1507中,将样本特征信息输入目标全连接层,进行分类处理,得到第二预测标签。
本说明书实施例中,步骤s1503~s1507的实现方式可以参见上述步骤s205~s209,在此不再赘述。
在步骤s1509中,根据样本标签和第二预测标签,获取第二损失信息。
本说明书实施例中,可以利用预设损失函数,计算样本标签与第二预测标签的损失作为第二损失信息。这里的预设损失函数可以为多标签分类损失multilabelsoftmarginloss函数,本公开对此不作限定。
在步骤s1511中,根据第二损失信息训练预设图卷积网络,直至第二损失信息满足预设条件,得到图卷积网络。该步骤的实现方式可以参见上述步骤s1309,在此不再赘述。
可选地,可以基于根据第二损失信息训练预设卷积网络,得到卷积网络。
通过结合预设图卷积网络的训练,使得训练好的标签分类模型可以包括图卷积网络,在对多媒体资源的标签分类中,可以进一步提高标签分类的准确度。
图17是根据一示例性实施例示出的一种多媒体资源的标签分类装置框图。参照图17,该装置可以包括:
模型输入信息获取模块1701,被配置为执行获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息;
目标图文特征信息获取模块1703,被配置为执行将目标图像和目标文本输入多模态特征提取模型,进行特征提取处理,得到待处理多媒体资源的目标图文特征信息;
目标标签特征描述信息获取模块1705,被配置为执行将标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息;
目标特征信息获取模块1707,被配置为执行将目标图文特征信息和目标标签特征描述信息进行特征融合处理,得到目标特征信息;
标签信息获取模块1709,被配置为执行根据目标特征信息,从预设标签集合中确定至少一个标签作为多媒体资源的标签信息。
通过多模态特征提取模型得到待处理多媒体资源的目标图文特征信息,能够有效地适用于多媒体资源的标签分类;并且,通过结合图卷积网络对标签特征进行相关性处理以及将目标图文特征信息和目标标签特征描述信息进行特征融合处理,实现了多媒体资源的多模态特征与标签特征信息的相关性融合,使得目标特征信息具有更丰富的语义表达以及能够更精准的表征多媒体资源的内容,即可以提升对多媒体资源内容的理解度,从而可以提高多媒体资源标签分类的精确度。
在一种可能的实现方式中,多模态特征提取模型包括图像特征提取模块、文本特征提取模块和特征融合模块;目标图文特征信息获取模块1703包括:
目标图像特征信息获取单元,被配置为执行将目标图像输入图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;
目标文本特征信息获取单元,被配置为执行将目标文本输入文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息;
目标图文特征信息获取单元,被配置为执行将目标图像特征信息和目标文本特征信息输入特征融合模块,进行特征融合处理,得到目标图文特征信息。
在一种可能的实现方式中,图像特征提取模块包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层;目标图像特征信息获取单元包括:
初始图像特征信息获取单元,被配置为执行将目标图像输入卷积模块,进行特征提取处理,得到初始图像特征信息;
第一图像特征信息获取单元,被配置为执行将初始图像特征信息输入第一降采样模块,进行降采样处理,得到第一尺度的第一图像特征信息;
第二图像特征信息获取单元,被配置为执行将第一图像特征信息输入第二降采样模块,进行降采样处理,得到第二尺度的第二图像特征信息;
第三图像特征信息获取单元,被配置为执行将第一图像特征信息输入第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;
第四图像特征信息获取单元,被配置为执行将第二图像特征信息输入第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息;
目标图像特征信息确定单元,被配置为执行将第三图像特征信息和第四图像特征信息作为目标图像特征信息。
在一种可能的实现方式中,文本特征提取模块包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层;目标文本特征信息获取单元包括:
第一文本特征信息获取单元,被配置为执行将目标文本输入第一文本特征提取单元,进行文本特征提取处理,得到第一文本特征信息;
第二文本特征信息获取单元,被配置为执行将第一文本特征信息输入第二文本特征提取单元,进行文本特征提取处理,得到第二文本特征信息;
第三文本特征信息获取单元,被配置为执行将第一文本特征信息输入第三全连接层,进行特征长度调整处理,得到预设长度的第三文本特征信息;
第四文本特征信息获取单元,被配置为执行将第二文本特征信息输入第四全连接层,进行特征长度调整处理,得到预设长度的第四文本特征信息;
目标文本特征信息确定单元,被配置为执行将第三文本特征信息和第四文本特征信息作为目标文本特征信息。
在一种可能的实现方式中,特征融合模块包括第一特征融合模块和第二特征融合模块;目标图文特征信息获取单元包括:
第一图文特征信息获取单元,被配置为执行将第三图像特征信息和第三文本特征信息输入第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;
第一目标图文特征信息获取单元,被配置为执行将第四图像特征信息、第四文本特征信息和第一图文特征信息输入第二特征融合模块,进行图文特征融合处理,得到目标图文特征信息。
在一种可能的实现方式中,图卷积网络包括第一图卷积模块和第二图卷积模块;目标标签特征描述信息获取模块1705包括:
待处理标签特征描述信息获取单元,被配置为执行将标签特征信息输入第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息;
目标标签特征描述信息获取单元,被配置为执行将待处理标签特征描述信息输入第二图卷积模块,进行标签特征相关性处理,得到目标标签特征描述信息。
在一种可能的实现方式中,标签分类装置还包括:
第二图文特征信息获取模块,被配置为执行将所述第一图文特征信息和所述待处理标签特征描述信息进行特征融合处理,得到第二图文特征信息;
所述目标图文特征信息获取单元还包括:
第二目标图文特征信息获取单元,被配置为执行将所述第四图像特征信息、所述第四文本特征信息和所述第二图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
在一种可能的实现方式中,标签信息获取模块1709包括:
标签信息获取单元,被配置为执行将目标特征信息输入目标全连接层,进行分类处理,得到标签信息。
在一种可能的实现方式中,模型输入信息获取模块1701包括:
标签相关性信息和权重信息获取单元,被配置为执行获取预设标签集合中两两标签间的标签相关性信息以及目标全连接层的权重信息;
标签特征描述信息获取单元,被配置为执行将权重信息作为标签特征描述信息;
标签特征信息获取单元,被配置为执行将标签相关性信息和标签特征描述信息作为预设标签集合对应的标签特征信息。
在一种可能的实现方式中,标签分类装置还包括:
训练数据获取模块,被配置为执行获取多个样本多媒体资源和对应的样本标签;多个样本多媒体资源包括对应的多个样本图像和多个样本文本;
第一样本图文特征信息获取模块,被配置为执行将多个样本图像和多个样本文本输入预设特征提取模型,进行特征提取处理,得到第一样本图文特征信息;
第一预测标签获取模块,被配置为执行将第一样本图文特征信息输入预设全连接层,进行分类处理,得到第一预测标签;
第一损失信息获取模块,被配置为执行根据样本标签和第一预测标签,获取第一损失信息;
第一训练模块,被配置为执行根据第一损失信息训练预设特征提取模型和预设全连接层,直至第一损失信息满足预设条件,得到多模态特征提取模型和目标全连接层。
在一种可能的实现方式中,标签分类装置还包括:
第二样本图文特征信息获取模块,被配置为执行将多个样本图像和多个样本文本输入多模态特征提取模型,进行特征提取处理,得到第二样本图文特征信息;
样本标签特征描述信息获取模块,被配置为执行将标签特征信息输入预设图卷积网络,进行标签特征相关性处理,得到样本标签特征描述信息;
样本特征信息获取模块,被配置为执行将第二样本图文特征信息和样本标签特征描述信息进行特征融合处理,得到样本特征信息;
第二预测标签获取模块,被配置为执行将样本特征信息输入目标全连接层,进行分类处理,得到第二预测标签;
第二损失信息获取模块,被配置为执行根据样本标签和第二预测标签,获取第二损失信息;
第二训练模块,被配置为执行根据第二损失信息训练预设图卷积网络,直至第二损失信息满足预设条件,得到图卷积网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图18是根据一示例性实施例示出的一种用于多媒体资源的标签分类的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图18所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体资源的标签分类方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图19是根据一示例性实施例示出的一种用于多媒体资源的标签分类的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图19所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体资源的标签分类方法。
本领域技术人员可以理解,图19中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的多媒体资源的标签分类方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的多媒体资源的标签分类方法。计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的多媒体资源的标签分类方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
1.一种多媒体资源的标签分类方法,其特征在于,所述标签分类方法包括:
获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息;
将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息;
将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息;
将所述目标图文特征信息和所述目标标签特征描述信息进行特征融合处理,得到目标特征信息;
根据所述目标特征信息,从所述预设标签集合中确定至少一个标签作为所述多媒体资源的标签信息。
2.根据权利要求1所述的标签分类方法,其特征在于,所述多模态特征提取模型包括图像特征提取模块、文本特征提取模块和特征融合模块;所述将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息步骤包括:
将所述目标图像输入所述图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息;
将所述目标文本输入所述文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息;
将所述目标图像特征信息和所述目标文本特征信息输入所述特征融合模块,进行特征融合处理,得到所述目标图文特征信息。
3.根据权利要求2所述的标签分类方法,其特征在于,所述图像特征提取模块包括卷积模块、第一降采样模块、第一全连接层、第二降采样模块和第二全连接层;所述将所述目标图像输入所述图像特征提取模块,进行图像特征提取处理,得到目标图像特征信息步骤包括:
将所述目标图像输入所述卷积模块,进行特征提取处理,得到初始图像特征信息;
将所述初始图像特征信息输入所述第一降采样模块,进行降采样处理,得到第一尺度的第一图像特征信息;
将所述第一图像特征信息输入所述第二降采样模块,进行降采样处理,得到第二尺度的第二图像特征信息;
将所述第一图像特征信息输入所述第一全连接层,进行特征长度调整处理,得到预设长度的第三图像特征信息;
将所述第二图像特征信息输入所述第二全连接层,进行特征长度调整处理,得到预设长度的第四图像特征信息;
将所述第三图像特征信息和所述第四图像特征信息作为所述目标图像特征信息。
4.根据权利要求3所述的标签分类方法,其特征在于,所述文本特征提取模块包括第一文本特征提取单元、第三全连接层、第二文本特征提取单元和第四全连接层;所述将所述目标文本输入所述文本特征提取模块,进行文本特征提取处理,得到目标文本特征信息步骤包括:
将所述目标文本输入所述第一文本特征提取单元,进行文本特征提取处理,得到第一文本特征信息;
将所述第一文本特征信息输入所述第二文本特征提取单元,进行文本特征提取处理,得到第二文本特征信息;
将所述第一文本特征信息输入所述第三全连接层,进行特征长度调整处理,得到预设长度的第三文本特征信息;
将所述第二文本特征信息输入所述第四全连接层,进行特征长度调整处理,得到预设长度的第四文本特征信息;
将所述第三文本特征信息和所述第四文本特征信息作为所述目标文本特征信息。
5.根据权利要求4所述的标签分类方法,其特征在于,所述特征融合模块包括第一特征融合模块和第二特征融合模块;所述将所述目标图像特征信息和所述目标文本特征信息输入所述特征融合模块,进行特征融合处理,得到所述目标图文特征信息步骤包括:
将所述第三图像特征信息和所述第三文本特征信息输入所述第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息;
将所述第四图像特征信息、所述第四文本特征信息和所述第一图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
6.根据权利要求5所述的标签分类方法,其特征在于,所述图卷积网络包括第一图卷积模块和第二图卷积模块;所述将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息步骤包括:
将所述标签特征信息输入所述第一图卷积模块,进行标签特征相关性处理,得到待处理标签特征描述信息;
将所述待处理标签特征描述信息输入所述第二图卷积模块,进行标签特征相关性处理,得到所述目标标签特征描述信息。
7.根据权利要求6所述的标签分类方法,其特征在于,在所述将所述第三图像特征信息和所述第三文本特征信息输入所述第一特征融合模块,进行图文特征融合处理,得到第一图文特征信息步骤之后,所述标签分类方法还包括:
将所述第一图文特征信息和所述待处理标签特征描述信息进行特征融合处理,得到第二图文特征信息;
所述将所述第四图像特征信息、所述第四文本特征信息和所述第一图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息步骤包括:
将所述第四图像特征信息、所述第四文本特征信息和所述第二图文特征信息输入所述第二特征融合模块,进行图文特征融合处理,得到所述目标图文特征信息。
8.一种多媒体资源的标签分类装置,其特征在于,包括:
模型输入信息获取模块,被配置为执行获取待处理多媒体资源对应的目标图像和目标文本以及预设标签集合对应的标签特征信息;
目标图文特征信息获取模块,被配置为执行将所述目标图像和所述目标文本输入多模态特征提取模型,进行特征提取处理,得到所述待处理多媒体资源的目标图文特征信息;
目标标签特征描述信息获取模块,被配置为执行将所述标签特征信息输入图卷积网络,进行标签特征相关性处理,得到目标标签特征描述信息;
目标特征信息获取模块,被配置为执行将所述目标图文特征信息和所述目标标签特征描述信息进行特征融合处理,得到目标特征信息;
标签信息获取模块,被配置为执行根据所述目标特征信息,从所述预设标签集合中确定至少一个标签作为所述多媒体资源的标签信息。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的多媒体资源的标签分类方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的多媒体资源的标签分类方法。
技术总结