一种基于特征融合的多风格图像生成方法与流程

专利2022-05-09  26


本发明涉及一种从语义分割图生成多风格图像的图像生成方法,尤其涉及一种能够端到端地实现从语义图到多风格图像的快速生成方法,属于计算机视觉领域。



背景技术:

目前生成多风格图像的模型大多都是从真实图像进行风格图像生成的,为数不多的从语义图进行风格图像生成的模型却只能使用同一个数据集中的图像作为输入的风格,不能实现对任意风格的快速迁移。

从语义图端到端地生成任意风格的图像在艺术设计和虚拟现实教育资源生成方向有着重要的意义,在艺术设计领域中艺术创作者或者设计师可以只要指定每个物体在语义图中的位置和大体形状以及想要生成的风格,那么就可以快速的生成符合语义图和风格约束的风格图像,极大的减少创作和设计所需的时间成本;而在多媒体教育资源生成方向,老师可以使用简单的语义图信息生成多风格的教学场景图像,多风格的教学场景图像可以极大的丰富教学资源,而风格多样的教学场景也可以更好的吸引学生的注意力提高学生的学习兴趣。同时,快速的从语义图生成教学场景图像可以极大的减少生成新的图像资源所花费的时间。



技术实现要素:

针对背景技术中从语义图生成多风格图像具有很大局限性的问题,本发明公开的一种基于特征融合的多风格图像生成方法要解决的技术问题是:提供具有内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络框架,通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内容风格特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图风格的多风格图像。本发明具有快速便捷、适用性广、生成效果好的优点。将生成具有语义图内容和风格图风格的多风格图像应用于吸引注意力的场景,解决相关工程技术问题。

为达到以上目的,本发明采用以下技术方案。

本发明公开的一种基于特征融合的多风格图像生成方法,将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量。将风格图输入风格特征提取网络,提取风格图中的风格特征向量。将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行特征融合,得到特征融合后的融合特征向量。构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上训练生成对抗网络。利用训练得到的损失函数最小化的生成器,生成具有语义图内容和风格图风格的多风格图像。本发明能够将生成的具有语义图内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题。

本发明公开的一种基于特征融合的多风格图像生成方法,包括如下步骤:

步骤1:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量。

步骤1中的内容特征提取网络主要由全局空间路径gsp(globalspacepath)、分类空间路径csp(categoryspacepath)和分类语义路径ccp(categorycontextpath)三条分支路径组成的多路特征提取网络。所述全局空间路径gsp用于提取全局空间特征,分类空间路径csp用于提取语义图的分类空间特征,分类语义路径ccp用于提取分类语义特征。

全局空间路径的输入是整张语义图,经过卷积网络处理得到包含全局空间信息的特征图。

分类空间路径的结构与全局空间路径的结构相同,唯一的不同点在于输入不同。语义空间路径的输入不是整张语义图而是先把语义图按不同的类别进行分割,每一个通道只有一个类别,然后拼接到一起成为多通道的分类语义图,分类语义图的每个类别将分别进行卷积运算,计算每个类的空间特征。

分类语义路径采用轻量级的resnet网络模型和全局平均池化扩大感受野,并且在resnet网络模型的末尾添加全局平均池化,能够最大限度的提供感受野和每个类别的全局上下文信息。另外,在分类语义路径中还使用注意力提取模块aem(attentionextractionmodule)。所述注意力提取模块使用注意力机制捕获特征图的全局语义信息,并且计算注意力向量对不同的位置赋予不同的权重达到指导网络学习的目的。

在多路生成网络中的三条分支路径分别提取出全局空间信息、分类空间信息和分类语义信息之后,将所述三条分支路径输出的特征,通过特征融合模块ffm(featurefusionmodule)进行融合。在特征融合之后,使用条件归一化模块cnb(conditionalnormalizationblock)将处理得到的分类语义图当作额外的条件输入,对含有类别不同的语义图给出不同的归一化参数,进而充分保留语义图中的信息并得到内容特征向量fc。

为了兼顾网络参数大小和空间信息提取的效果,作为优选,步骤1中,所述卷积网络选用三层卷积网络,每层网络包含卷积层、标准化层和激活函数层,经过三层卷积之后输出的特征图大小是原图的1/8。

步骤2:将风格图输入风格特征提取网络,提取风格图中的风格特征向量。

步骤2中的风格特征提取网络使用预训练好的vgg16网络。通过vgg16网络将输入风格图t在激活层之前的特征提取出来,并将所述提取出来的特征作为特征融合的原始特征。所述特征属于不同等级的特征,所以使用特征融合模块ffm从深到浅地将不同等级的特征依次进行特征融合。融合后的特征经过注意力提取模块aem,用自注意力模型对不同的通道进行注意力加权得到的风格特征向量fs。

作为优选,将输入的风格图t在vgg16网络中的relu1_2、relu2_2、relu3_3和relu4_3这些激活层之前的特征frelu1_2(t)、frelu2_2(t)、frelu3_3(t)、frelu4_3(t)提取出来,并将所述提取出来的特征作为特征融合的原始特征。所述特征属于不同等级的特征,所以使用特征融合模块ffm从深到浅地将不同等级的特征依次进行特征融合。融合后的特征经过注意力提取模块aem,用自注意力模型对不同的通道进行注意力加权得到的风格特征向量fs。

步骤3:将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行特征融合,得到特征融合后的融合特征向量fcs。

步骤3中的内容风格特征融合网络使用wct(whiten-colortransform)矩阵变换的方式进行特征融合。wct矩阵变换是对内容图像的特征fc和风格图的特征fs经过whiten变换和color变换之后得到具有内容图内容特征和风格图风格特征的融合特征fcs的过程,wct变换分为两部分分别是whiten变换和color变换。

whiten变换的方法是将内容图像在vgg16网络的特征空间中的特征fc求出协方差矩阵,对协方差矩阵进行svd分解,根据分解得到的矩阵对特征进行whiten变换,把内容图像中的颜色特征从图像中剥离出来,得到变换后的特征只剩下内容轮廓的特征fc,whiten变换的实现方式为:

其中fc是内容图像在vgg16中提取出来的特征;dc是一个对角阵,元素是协方差矩阵的特征值;ec是正交矩阵,满足dc和ec都是对协方差矩阵进行svd分解之后得到。

color变换的方法是将风格图像在vgg16网络中的特征空间中的特征fs先求出协方差矩阵,对协方差矩阵进行svd分解,再将fs与whiten变换得到的fc,进行反向的whiten变换,即color变换,将whiten变换之后的内容特征迁移到风格图的特征分布上,得到wct变换之后的特征向量fcs,color变换的实现方式为:

在wct矩阵变换操作之后,又加入特征融合模块ffm,将内容特征向量与wct变换之后的特征向量fcs进行特征融合,强化融合向量中语义图的内容约束力,并得到最终的风格内容特征融合向量fcs。

步骤4:构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络。

内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络框架,通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内容风格特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图风格的多风格图像。

步骤4中所述的生成器是内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络。判别器是由全局判别器d1和局部判别器d2组成的多级判别器,具有相同的网络结构,但是运行在不同的图像比例上。

步骤4中设计的损失函数为:

其中,λ1,λ2,λ3,λ4,λ5为可设定参数,g是生成器,d1是局部判别器,d2是全局判别器,x是输入的语义图,t是输入的风格图,y是生成的多风格图像。

为计算内容差异的感知损失,其表达式为:

f(i)表示vgg16网络的第i个激活前层特征提取器,而wi是第i层的自适应权重,特征的层数越深,加权的参数就越大。

是对抗损失,其表达式为:

是特征匹配损失,其表达式为:

其中t表示判别器dk的网络层数,ni表示每层的元素个数。

为计算风格差异的上下文损失,其表达式为:

其中,cx(φl(x),φl(t))是语义图x和风格图t的第l层vgg16特征的余弦相似度。

为总变分损失,其表达式为:

其中,i和j是图像中像素的坐标值,n是图像的像素范围大小。

为了充分考虑不同深度特征对损失函数计算的影响,作为优选,步骤4中,提取vgg16网络提取的五层特征,即n=5,wi的值依次是1/32、1/16、1/8、1/4、1,特征的层数越深,加权的参数就越大。

步骤5:利用步骤4训练得到损失函数最小化的生成器,此时,步骤3得到的风格内容特征融合向量fcs成为具有语义图内容和风格图风格的多风格图像t,即基于特征融合实现多风格图像生成。

还包括步骤6:将步骤5生成的具有语义图内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题。

步骤6所述相关工程技术问题包括创意广告设计、游戏场景设计和教学场景图像设计等实际问题。

有益效果:

1、本发明公开的一种基于特征融合的多风格图像生成方法,提供具有内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络框架,通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内容风格特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图风格的多风格图像,因为生成的过程中融合不同等级的图像特征,因此生成的多风格图像具有布局合理、细节清晰和分辨率高的优点。

2、现有的从语义图生成多风格图像的方法都要求风格图和语义图在一个数据集中,而且要求风格图和和语义图中的物体类别要相同,本发明公开的一种基于特征融合的多风格图像生成方法,对输入的图像没有限制,经过训练完成之后即能够实现使用任意的语义图和风格图生成具有语义图内容和风格图风格的多风格图像,因此能够满足不同任务的生成需求,具有适用性广的优点。

3、现有的任意多风格图像生成的网络框架并不能实现端到端的从语义图生成多风格图像,需要先生成符合语义图的真实图像,然后再对真实图像进行风格迁移,本发明公开的一种基于特征融合的多风格图像生成方法,所采用的网络框架只需要输入语义图和风格图,即能够自动生成具有语义图内容和风格图风格的多风格图像,避免现有的其他传统方法两步走的生成方式,能够快速便捷的实现从语义图到多风格图像的生成。

4、本发明公开的一种基于特征融合的多风格图像生成方法,将本发明生成的具有语义图内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题,例如:包括创意广告设计、游戏场景设计和教学场景图像设计等实际问题。

附图说明

图1是本发明的基于特征融合的多风格图像生成方法的实现流程图;

图2是本发明中内容特征提取网络的结构图,其中图2(a)为内容特征提取网络的整体结构图,图2(b)为注意力提取模块aem(attentionextractionmodule)的结构图,图2(c)为特征融合模块ffm(featurefusionmodule)的结构图,图2(d)为条件归一化模块cnb(conditionalnormalizationblock);

图3是本发明中风格特征提取网络的结构图;

图4是本发明中内容风格特征融合网络的结构图;

图5是本发明中生成器的结构图;

图6是本发明中判别器的结构图;

图7是本发明在cityscapes数据集上的生成效果图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示,本实施例公开的一种基于特征融合的多风格图像生成方法,能够在cityscapes数据集上进行娱乐相关的应用,例如应用于电影、动画和游戏的创作中,对电影、动画和游戏中的街景进行风格渲染,将同一张街景图变成不同风格,打造想要的电影、动画和游戏风格。并且还能降低创作成本,节省制作时间,增加与观众或玩家的互动。本实施例的训练及图像生成流程如图1所示。

步骤1:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量,内容特征提取网络的结构图如图2(a)所示。

步骤1中输入的语义图的大小是[3,256,512],分类空间路径和全局空间路径得到的特征图大小为[512,32,64],分类语义路径得到的特征图大小为[256,128,256]其中分类语义路径中使用的注意力提取模块(aem)的网络结构如图2(b)所示,得到这三个特征之后,将它们经过特征融合模块(ffm)进行特征融合得到大小为[512,128,256],特征融合模块(ffm)的结构如图2(c)所示。最后融合后的特征经过条件归一化模块cnb进行上采样,条件归一化模块cnb的大小如图2(d)所示,最后得到最终的内容特征向量fc,fc的大小为[256,128,256]。

步骤2:将风格图输入风格特征提取网络,提取风格图中的风格特征向量,风格特征提取网络的结构图如图3所示。

步骤2中的风格特征提取网络使用预训练好的vgg16网络。输入网络的风格图t的大小为[3,256,512],在vgg16中的relu1_2、relu2_2、relu3_3和relu4_3这些激活层之前的特征frelu1_2(t)、frelu2_2(t)、frelu3_3(t)、frelu4_3(t)提取出来,提取出特征的大小分别为[128,256,512],[256,128,256],[512,64,128],[512,64,128]。因为所述特征属于不同等级的特征,所以使用特征融合模块ffm从深到浅地将他们依次进行特征融合,特征融合模块ffm的结构如图2(c)所示。最后,融合后的特征经过注意力提取模块aem,注意力用自注意力模型对不同的通道进行注意力加权得到最终的风格特征向量fs,提取模块aem的网络结构如图2(b)所示,最终得到的风格特征向量fs的大小为[256,128,256]。

步骤3:将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行特征融合,得到内容风格融合特征fcs,内容风格特征融合网络的结构如图4所示。

步骤3中输入内容风格特征融合网络的内容特征向量fc和风格特征向量fs大小分为[256,128,256],经过wct矩阵变换之后特征的大小并没有发生变化,但是经过变换的特征向量已经具有内容图的内容信息和风格图的风格信息。在wct的矩阵变换操作之后,又加入特征融合模块ffm,将内容特征向量与wct变换之后的特征向量进行特征融合,强化融合向量中语义图的内容约束力,融合后的向量大小还是为[256,128,256],之后使用反卷积操作进行上采样,最终得到在具有输入风格图的艺术风格的同时也更好的符合语义图的内容约束的大小为[3,256,512]的风格内容融合特征fcs。

步骤4:构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络。

步骤4中的生成器的网络结构如图5所示,判别器的网络结构如图6所示。生成器就是步骤1到步骤3中的内容特征提取网络、风格特征提取网络和内容风格特征融合网络组成的生成器网络,判别器是由全局判别器d1和局部判别器d2组成的多级判别器。在训练过程中所使用的损失函数为:

其中,λ1,λ2,λ3,λ4,λ5为可设定参数,g是生成器,d1是局部判别器,d2是全局判别器,x是输入的语义图,t是输入的风格图,y是生成的多风格图像。

为计算内容差异的感知损失,其表达式为:

f(i)表示vgg16网络的第i个激活前层特征提取器,而wi是第i层的自适应权重,在实验中提取vgg16网络中的五层特征,也就是n=5,wi的值依次是1/32、1/16、1/8、1/4、1,特征的层数越深,加权的参数就越大。

是对抗损失,其表达式为:

是特征匹配损失,其表达式为:

其中t表示判别器dk的网络层数,ni表示每层的元素个数。

为计算风格差异的上下文损失,其表达式为:

其中,cx(φl(x),φl(t))是语义图x和风格图t的vgg16特征的余弦相似度。

为总变分损失,其表达式为:

其中,i和j是图像中像素的坐标值,n是图像的像素范围大小。

在本发明的训练过程中,一共训练300代,在训练过程中λ1=10,λ2=1,λ3=1,λ5=0.00001,在训练的前150代,控制风格差异的上下文损失的系数较λ4小仅为0.1,在后150代中λ4的大小开始逐渐的增大,直到达到最大值20。

步骤5:利用步骤4训练得到损失函数最小化的生成器,此时,步骤3得到的风格内容特征融合向量fcs会变成具有语义图内容和风格图风格的多风格图像y。

在步骤5中,本实施例在cityscapes这个公开数据集上取得很好的生成结果。cityscapes数据集是一个新的大规模数据集,该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列,该数据集可以应用于电影、动画和游戏的创作中,对电影、动画和游戏中的街景进行风格渲染,将同一张街景图变成不同风格,打造想要的电影、动画和游戏风格。网络的生成结果如图6所示。

综上,本实施例通过将语义图和风格图输入到生成对抗网络中,训练生成对抗网络模型,得到训练完善的生成器,此时成器可以生成符合语义图内容约束和风格图风格约束的图像。本实施例能够解决传统方法中的生成的时间成本和人力成本大,效果得不到保证的问题。

以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

转载请注明原文地址:https://doc.8miu.com/read-250307.html

最新回复(0)