基于深度学习特征与人工提取特征融合的白细胞分类方法与流程

专利2022-05-09  7


本发明涉及一种基于深度学习特征与人工提取特征融合的白细胞分类方法,属于计算机图像处理领域。



背景技术:

卷积神经网络(convolutionalneuralnetwork,cnn)在图像识别、物体检测、自动驾驶、自动控制等领域都取得很大的成功。cnn处理一般的视觉图像效果尤其明显,主要是因为图像可以直接转化为多维的矢量矩阵作为网络的输入,这样cnn便可以无差别且高效地对图像特征进行提取,从而无需像传统视觉处理中需要先进行数据建模[1]。

cnn相较于传统的随机森林、svm等算法,其参数量巨大,模型有着更大的复杂程度,相较于传统模型有更强的表达能力,因此更容易发生过拟合现象,所以使用大量数据对于训练一个性能良好的卷积神经网络模型至关重要。然而在医学图像领域,由于其标签数据难以获得,数据规模往往不大,因此直接使用cnn的方法对数据量不足的领域的数据进行分析,其结果必定会过拟合,难以达到满意的效果,本发明使用迁移学习的方法来解决这个问题[2]。

传统人工提取到的特征通常有确定的名字,包含更多的位置和细节信息,从传统医学角度出发,更容易被人们理解,但是人工设计提取的特征往往只能片面地表现图像的表层特征[3]。而深度学习提取到的特征是一种随机提取的图像深层特征,图像在经过多层卷积处理后,可能会提取出更加有效的特征,但是分辨率低,对细节的感知能力较差。

[参考文献]

陈畅,程少杰,李卫滨,陈敏.基于卷积神经网络的外周血白细胞分类[j].中国生物医学工程学报,2018,37(01):17-24.

马金林,魏萌,马自萍.基于深度迁移学习的肺结节分割方法[j].计算机应用,2020,40(07):2117-2125.

孙凯,姚旭峰,黄钢.基于机器学习的白细胞六分类研究[j].软件,2020,41(10):98-101 134.



技术实现要素:

针对上述现有技术,本发明提出了一种基于深度学习特征与人工提取特征融合的白细胞分类方法。cnn通过强大的自学习能力对细胞图像进行自动特征提取,可以得到图像的深层语义特征,同时与人工提取的低层特征融合,可以从多方面表达了细胞图像的特征信息。由于医学图像数据集往往规模较小,使用卷积神经网络进行分析时,其结果必定会过拟合,难以达到满意的效果,本发明中使用迁移学习的方法来解决这个问题。基于深度学习特征和人工提取特征融合的方法对白细胞进行分类,在医学图像的检测与分类方面具有重要意义,同时在相关疾病的临床诊断和分析中具有广阔的应用前景。

为了解决上述技术问题,本发明提出的一种基于深度学习特征与人工提取特征融合的白细胞分类方法,包括以下步骤:

步骤一、从分割出的白细胞细胞核以及整个白细胞中,提取颜色、纹理和形态这三方面的多个人工特征;

步骤二、引入迁移学习的方法,将在imagenet数据集上预训练好的inceptionv3网络模型迁移到白细胞数据集上,其中,去掉inceptionv3网络模型顶层即最后的两层,并加入一个全局平均池化层以及一个全连接层,以该全连接层的输出作为深层特征;

步骤三、步骤二中获得的深层特征与步骤一中人工提取的特征拼接融合后,得到融合特征,将融合特征送入输出层构建白细胞分类模型,进而实现白细胞的分类。

进一步讲,本发明所述的白细胞分类方法,其中:

步骤一的过程如下:将白细胞图像转换为灰度图像和hsv图像,在灰度图像中分割出白细胞细胞核,在hsv图像中分割出整个白细胞;从分割出的白细胞细胞核和整个白细胞中提取颜色、纹理和形态三方面的特征,包括:以灰度直方图表示的颜色特征,包括均值、方差、倾斜度、峰态、能量、熵;利用灰度共生矩阵进行纹理特征的提取,包括熵、能量、相关性、对比度、逆差距;采用八连通链码计算形态特征,包括面积、周长、长宽比、圆形度、矩形度、核质比;上述的颜色、纹理和形态三方面的特征包括下述的33个特征:1)从分割出的白细胞细胞核中提取6个颜色特征、5个纹理特征和5个形态特征;2)从分割出的整个白细胞中提取6个颜色特征、5个纹理特征和6个形态特征。

步骤二中,从互联网上收集大量的血液细胞涂片图片,整理后获得所述的白细胞数据集;该白细胞数据集包含共5类的500张白细胞图片,5类分别为嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞和单核细胞,且每类分别为100张;所有的白细胞图片均统一标准化为201×201的jpg格式的rgb彩色图像。

步骤二中,所述inceptionv3网络模型的网络结构是:包括6个卷积层、2个池化层、10个inception模块、1个全连接层和1个softmax层,上一层的输出为下一层的输入;前3个卷积层用核大小为3×3,步长分别为2,1,1的核进行滤波;第1个池化层与第3个卷积层的输出相连接,用核大小为3×3,步长为2的核进行池化;后3个卷积层用核大小为3×3,步长分别为1,2,1的核进行滤波;第6个卷积层的输出为3个inception模块的输入,该3个inception模块再与5个inception模块相连,该5个inception模块后再连接2个inception模块;然后经过一个8×8池化操作后,与所述的全连接层相连接,最后通过所述的softmax层输出。

步骤二中,将预训练好的inceptionv3网络模型迁移到白细胞数据集上时,首先,去掉该inceptionv3网络模型的最后两层,即所述的全连接层和softmax层,然后,加入一个全局平均池化层以及一个具有512个节点的全连接层,形成新的inceptionv3网络模型,以具有512个节点的全连接层输出的512维特征作为深层特征。

步骤三中,待拼接融合的特征包括步骤二获得的深层特征和步骤一中人工提取的特征;利用concat融合方法,将待拼接融合的特征直接连接得到融合特征,融合特征的维度是待拼接融合特征维度的总和;在拼接融合后加入一个全连接层和一个具有5个节点的softmax层作为输出层,将融合特征送入该输出层,从而构建了白细胞分类模型,该白细胞分类模型的softmax层的输出即为白细胞分类结果。

与现有技术相比,本发明的有益效果是:

(1)深度学习在图像识别领域取得重大突破,cnn作为深度学习的代表算法,具有表征学习能力,即能够从输入信息中提取高阶特征,利用这种方法对白细胞图像识别成为一种新的研究方向。

(2)在使用深度学习时,模型有大量的参数需要训练,需要大量数据作支撑。数据集的规模直接影响分类效果,而医学图像领域的数据集往往比较小。因此,本发明引入迁移学习的方法,可以实现在拥有小数据集的情况下,就完成准确高效的图像分类。

(3)cnn通过自身强大的自学习能力,可以提取到图像中具有更强语义信息的深层特征,但是对图像细节的感知能力较差。本发明提出了深度学习特征与人工特征融合的细胞分类方法,这种特征融合的方法充分地利用了图像的特征信息,提高了cnn的分类准确率。

附图说明

图1是是卷积神经网络模型的示意图;

图2是本发明中将预训练好的inceptionv3网络模型迁移到白细胞数据集过程示意图;

图3是特征融合示意图,(a)是本发明采用的concat融合方法,(b)是add融合方法;

图4-1是本发明中人工提取特征与深层特征融合示意图;

图4-2是图4-1中所示融合前后特征热力图示意图;

图5是本发明仿真实验的特征融合网络迭代过程的变化示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。

本发明提出了一种基于深度学习特征与人工提取特征融合的白细胞分类方法。其基本设计思路是:首先,本发明从分割出的白细胞细胞核与整个白细胞中提取了33个人工特征;然后,本发明引入迁移学习的方法,在规模较小的白细胞数据集上训练inceptionv3网络,提取inceptionv3网络输出的深层特征;最后,本发明将从inceptionv3网络模型中获得的深层特征与人工方法提取出的特征进行拼接融合,融合的特征通softmax层来完成白细胞的分类。相对于现有技术,本发明通过利用深度学习的自学习能力,同时结合人工提取特征的细节信息,从多方面表达了细胞图像的特征信息,从而成功地提高了白细胞的分类准确率。本发明主要包括以下步骤:

步骤一、从分割出的白细胞细胞核以及整个白细胞中,提取颜色、纹理和形态这三方面的多个人工特征。

本发明应用阈值分割方法对白细胞进行分割,即在颜色直方图中选择一个或多个灰度值作为分割阈值,将图像分为两种或多种类型的区域。本发明结合不同颜色空间中细胞质和细胞核的不同表现,在灰度图像中分割出白细胞的细胞核,并在hsv图像中分割出整个的白细胞。特征提取就是从图像中提取到有效的特征信息,可用作细胞分类的依据。一般,从颜色、纹理和形态这三方面提取人工特征。

本发明分别从分割出的白细胞细胞核和白细胞中提取以上三方面的特征。其中,颜色特征主要通过颜色直方图表示,即对图像中各颜色分布情况的一种数学统计值的表达,可以使用灰度直方图的相关统计特征表示白细胞的颜色特征,以灰度直方图表示的颜色特征包括均值、方差、倾斜度、峰态、能量、熵。从白细胞图像的角度来说,纹理是指细胞质和细胞核的内部结构在细胞图像上的反映,利用灰度共生矩阵提取的纹理特征包括熵、能量、相关性、对比度、逆差距。相对于纹理特征而言,形态特征是比较直观的可以用几何图形等描述的特征,采用八连通链码来计算白细胞的形态特征,包括面积、周长、长宽比、圆形度、矩形度、核质比。在本发明中,从分割出的白细胞细胞核与整个白细胞中提取上述特征,共得到33个人工特征,即从分割出的白细胞细胞核中提取6个颜色特征、5个纹理特征和5个形态特征,从分割出的整个白细胞中提取6个颜色特征、5个纹理特征和6个形态特征,如表1所示。

表1

步骤二、引入迁移学习的方法,将在imagenet数据集上预训练好的inceptionv3网络模型迁移到白细胞数据集上,其中,去掉inceptionv3网络模型顶层即最后的两层,并加入一个全局平均池化层以及一个全连接层,以该全连接层的输出作为深层特征。

卷积神经网络是受生物神经系统启发而设计的具有众多层次结构的人工网络系统。该网络主要具有两种特征:一是该架构中不同卷积层间的神经元连接方式是局部相连的,二是一些处于同一层次中神经元采用权值共享的方式。卷积神经网络主要由卷积层、池化层以及全连接层等结构组成。如图1是一个简单的卷积神经网络的模型。

本发明中具体采用的是inceptionv3网络模型,所述inceptionv3网络模型的网络结构包括6个卷积层、2个池化层、10个inception模块、1个全连接层和1个softmax层。上一层的输出为下一层的输入,前3个卷积层用核大小为3×3,步长分别为2,1,1的核进行滤波;第1个池化层与第3个卷积层的输出相连接,用核大小为3×3,步长为2的核进行池化;后3个卷积层用核大小为3×3,步长分别为1,2,1的核进行滤波;第6个卷积层的输出为3个inception模块的输入,该3个inception模块再与5个inception模块相连,该5个inception模块后再连接2个inception模块;然后经过一个8×8池化操作后,与所述的全连接层相连接,最后通过所述的softmax层输出。inceptionv3网络结构如表2所示。

表2

在使用深度学习时,模型有大量的参数需要训练,需要大量数据作支撑。数据集的规模直接影响分类效果,而医学图像领域的数据集往往比较小。因此,本发明引入迁移学习,实现在小数据集上获得良好的分类效果,提高细胞图像的分类准确率。迁移学习的一般步骤:首先,在imagenet数据集上训练所用的卷积神经网络直至其分类准确率收敛;然后,将此预训练好的网络模型去掉顶层后连接新的输出层;最后,迁移至目标数据集上对新的网络模型进行训练。迁移学习的训练策略主要有两种:第一种是将预训练模型用作目标数据集上的一个特征提取器,提取特征后只对原网络倒数第二层新加入的网络进行训练直至收敛得到分类结果;第二种是保持网络浅层网络参数不变,使用目标数据集训练未被冻结的深层网络,调整网络权重参数直至新的网络分类准确率收敛,这种方法也叫作微调。

本发明中,从互联网上收集大量的血液细胞涂片图片,整理后获得所述的白细胞数据集;该白细胞数据集包含共5类的500张白细胞图片,5类分别为嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞和单核细胞,且每类分别为100张;所有的白细胞图片均统一标准化为201×201的jpg格式的rgb彩色图像。

本发明将直接调用在imagenet数据集上预训练好的inceptionv3模型,然后迁移至白细胞数据集上。首先,去掉预训练好的inceptionv3网络模型的顶层即最后两层;然后,加入一个全局平均池化层以及一个具有512个节点的全连接层,形成新的inceptionv3网络模型,以具有512个节点的全连接层输出的512维特征作为深层特征。具体的迁移过程如图2所示。迁移训练时结合两种常用训练方法,首先只训练最后三层即原网络的倒数第二层,新换的全局平均池化层以及新换的全连接层,训练经过一定epoch之后,然后改用微调的方法即释放深层网络继续训练,同时降低学习率。如此通过迁移学习的学习能力,在只拥有小数据集的情况下就可以完成准确高效的图像分类。

步骤三、步骤二中获得的深层特征与步骤一中人工提取的特征拼接融合后,得到融合特征,将融合特征送入输出层构建白细胞分类模型,进而实现白细胞的分类。

特征融合首先需要对数据提取特征向量,然后对各个特征向量进行融合处理,处于信息融合的中间层次。特征融合的方法主要有两种,concat融合以及add融合,如图3所示。

(1)concat融合是指将待融合的特征直接进行连接,连接后的特征维度是待融合特征维度的总和,如公式所示:

zconcat=x1∪x2∪…∪xi∪…∪xk(1)

其中,xk代表需要进行融合的特征向量,zconcat可以看作是所有特征向量的融合集。如图3中的(a)所示,concat融合实质上是对特征直接进行了维度上的拼接,从而增加了特征多样性,使分类器得到了更多的特征,而不仅仅是深度学习网络最后一层的特征映射。因此,拼接过程的实质是丰富特征多样性,使分类器获得更好的识别能力。

(2)add融合是指对待融合特征的对应维度位置的元素进行相加,融合后特征的维度不变,如公式所示:

其中,表示逐元素相加,而不同的特征向量xk最后要具有相同维度,即每个xk的长度大小、宽度大小和通道数量都要是相同的。因此在使用add融合前,需要将待融合特征分别进行归一化操作,以避免异质特征的量纲不同而引起的其他问题。如图3中的(b)所示,add融合结果zadd的总通道数不增加,但每个通道中包含了更多的特征信息,实质是增强特征信息,使分类器更好地理解特征细节。

本发明中,将从inceptionv3网络模型中获得的深层特征与人工提取的特征进行融合,由于两者在特征维度上并不相同,因此选择concat连接的方法进行特征融合,即将待拼接融合的特征进行展开,将待融合特征直接连接得到融合特征,融合特征的维度是待拼接融合特征维度的总和,即545维。在拼接融合后加上一个新的全连接层与softmax分类层作为输出层,输出层神经元个数即为目标任务的分类类别数,在本发明中白细胞分为五类,则上述加入的softmax分类层是一个具有5个节点的softmax层,则最后的输出层神经元个数为5个,将融合特征送入输出层,从而构建了白细胞分类模型,如图4-1所示。

观察图4-1可知该网络结构需要实现两路特征拼接,inceptionv3网络模型去掉顶层后输出为一个8*8*2048的张量,然后由一个全局平均池化层将其转换为1*2048的张量,为防止深度学习特征维数太高而弱化人工提取特征的有效性,本发明在此之后又加入了一个具有512个节点的全连接层以达到特征降维的目的,最后得到一个1*512的特征向量。深度学习特征与人工提取特征分别进行归一化后通过concat融合的方法进行特征融合生成一个1*545的特征向量,然后送入输出层,通过softmax层的输出即为白细胞分类结果。通过如图4-2所示,为inceptionv3网络模型输出的512维特征与人工提取的33维特征融合前后的特征热力图,取一个batchsize的64张图片的特征进行展示,其中,a是inceptionv3网络的输出特征,b是人工提取特征,c是融合后特征。

仿真实验

inceptionv3网络输入要求为299*299三通道的彩色图片,因此需要将原白细胞图片resize为标准的299*299。数据集较小的图片对于深度学习所需的数据量远远不够,可以选择使用数据增强的方法来增大数据量,在防止过拟合的情况下还可以提高数据的准确率。由于采用了迁移学习方法,对图像数据集规模的要求没有那么高,因此只需适当增加白细胞图片的数据量即可(数据量过多反而会增加实验时间、降低运行准确率)。本发明采用图像旋转的方法对数据进行扩充,对原始细胞图像分别进行90°,180°以及270°的旋转,把原本的数据集扩充三倍。

在本发明中,直接调用在imagenet中预训练好的网络模型,然后再迁移至白细胞数据中进行训练。为了更好的观察训练结果,设置迭代次数为500,其中迁移学习进行微调训练时仅从inceptionv3网络模型的第17层开始训练,学习率设为0.001,batchsize设为64。使用样本总体分类准确率(accuracy)和损失率(loss)来对实验结果进行评价。准确率的定义如公式(3),其中k表示被正确分类的样本数,n表示样本总数。

选用对数损失函数作为损失函数。binary_crossentropy即对数损失函数,主要被用来做极大似然估计,其定义如公式(4),其中l为交叉熵的值,x为样本数据值,y为预测数据值。损失函数值越小,训练效果越好,测试效果更好。

l(y,p(y|x))=-logp(y|x)(4)

特征融合前后白细胞分类实验结果准确率如表3所示;特征融合后网络迭代过程的准确率和损失率变化如图5所示,其中,a是迭代过程中的准确率变化,b是迭代过程中的损失率变化。

表3

尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。


技术特征:

1.一种基于深度学习特征与人工提取特征融合的白细胞分类方法,其特征在于,包括以下步骤:

步骤一、从分割出的白细胞细胞核以及整个白细胞中,提取颜色、纹理和形态这三方面的多个人工特征;

步骤二、引入迁移学习的方法,将在imagenet数据集上预训练好的inceptionv3网络模型迁移到白细胞数据集上,其中,去掉inceptionv3网络模型顶层即最后的两层,并加入一个全局平均池化层以及一个全连接层,以该全连接层的输出作为深层特征;

步骤三、步骤二中获得的深层特征与步骤一中人工提取的特征拼接融合后,得到融合特征,将融合特征送入输出层构建白细胞分类模型,进而实现白细胞的分类。

2.根据权利要求1所述的白细胞分类方法,其特征在于,步骤一的过程如下:

将白细胞图像转换为灰度图像和hsv图像,在灰度图像中分割出白细胞细胞核,在hsv图像中分割出整个白细胞;从分割出的白细胞细胞核和整个白细胞中提取颜色、纹理和形态三方面的特征,包括:

以灰度直方图表示的颜色特征,包括均值、方差、倾斜度、峰态、能量、熵;

利用灰度共生矩阵进行纹理特征的提取,包括熵、能量、相关性、对比度、逆差距;

采用八连通链码计算形态特征,包括面积、周长、长宽比、圆形度、矩形度、核质比;

上述的颜色、纹理和形态三方面的特征包括下述的33个特征:

1)从分割出的白细胞细胞核中提取6个颜色特征、5个纹理特征和5个形态特征;

2)从分割出的整个白细胞中提取6个颜色特征、5个纹理特征和6个形态特征。

3.根据权利要求1所述的白细胞分类方法,其特征在于,步骤二中,从互联网上收集大量的血液细胞涂片图片,整理后获得所述的白细胞数据集;该白细胞数据集包含共5类的500张白细胞图片,5类分别为嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞和单核细胞,且每类分别为100张;所有的白细胞图片均统一标准化为201×201的jpg格式的rgb彩色图像。

4.根据权利要求3所述的白细胞分类方法,其特征在于,步骤二中,所述inceptionv3网络模型的网络结构包括6个卷积层、2个池化层、10个inception模块、1个全连接层和1个softmax层;上一层的输出为下一层的输入,前3个卷积层用核大小为3×3,步长分别为2,1,1的核进行滤波;第1个池化层与第3个卷积层的输出相连接,用核大小为3×3,步长为2的核进行池化;后3个卷积层用核大小为3×3,步长分别为1,2,1的核进行滤波;第6个卷积层的输出为3个inception模块的输入,该3个inception模块再与5个inception模块相连,该5个inception模块后再连接2个inception模块;然后经过一个8×8池化操作后,与所述的全连接层相连接,最后通过所述的softmax层输出。

5.根据权利要求4所述的白细胞分类方法,其特征在于,步骤二中,将预训练好的inceptionv3网络模型迁移到白细胞数据集上时,首先,去掉该inceptionv3网络模型的最后两层,即所述的全连接层和softmax层,然后,加入一个全局平均池化层以及一个具有512个节点的全连接层,形成新的inceptionv3网络模型,以具有512个节点的全连接层输出的512维特征作为深层特征。

6.根据权利要求1所述的白细胞分类方法,其特征在于,步骤三中,待拼接融合的特征包括步骤二获得的深层特征和步骤一中人工提取的特征;利用concat融合方法,将待拼接融合的特征直接连接得到融合特征,融合特征的维度是待拼接融合特征维度的总和;在拼接融合后加入一个全连接层和一个具有5个节点的softmax层作为输出层,将融合特征送入该输出层,从而构建了白细胞分类模型,该白细胞分类模型的softmax层的输出即为白细胞分类结果。

技术总结
本发明公开了一种基于深度学习特征与人工提取特征融合的白细胞分类方法,包括以下步骤:从分割出的白细胞细胞核以及整个白细胞中,提取颜色、纹理和形态三方面的多个人工特征;引入迁移学习的方法,将在Image Net数据集上预训练好的Inception V3网络模型迁移到白细胞数据集上,去掉Inception V3网络模型最后的两层,并加入一个全局平均池化层以及一个全连接层,以该全连接层的输出作为深层特征;将深层特征与人工提取特征拼接融合后,将融合特征送入输出层,构建白细胞分类模型,实现白细胞的分类。本发明充分地利用了图像的特征信息,提高了分类准确率,并引入迁移学习的方法,在只拥有小数据集的情况下,实现准确高效的图像分类。

技术研发人员:董娜;冯晴月;常建芳
受保护的技术使用者:天津大学
技术研发日:2021.03.22
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350425.html

最新回复(0)