本发明实施例涉及医学时间序列,具体涉及一种基于频域mixup增广和logit补偿的自监督多标记不平衡心电图分类方法。
背景技术:
1、心血管疾病被认为是人类健康第一“杀手”,据统计,仅在我国每年就有约300万人死于心脑血管疾病。心电图(ecg)由于其非侵入性、低风险和成本低等特性,被广泛应用于临床实践中,可用来诊断心率失常和心肌梗塞等众多心血管疾病。因此,在医疗保健设施中,与心脏相关的症状都需要进行心电图测量,产生了大量心电数据。在现实中,这些数据通常呈现严重的多标记类不平衡问题,其中多标记体现在一个患者的数秒心电图波形包含多种类型的心率失常,同时不平衡反映在患者患有的常见疾病数远大于罕见疾病数。当前流行的ecg分类方法通常用专家已标注的数据训练(深度)学习模型,忽视了多标记的类不平衡,导致模型习得的表征有偏,具体体现在对多数类样本分类效果好,对少数类样本分类效果较差。
2、最近的研究表明通常的类不平衡学习问题可利用自监督学习有效的缓和。其原因是利用自监督预训练克服数据内在的标记偏置,使习得的特征表征具有多样性和不敏感于类不平衡,在为下游任务提供有效表示的同时,使其聚焦于不平衡学习。近年来,自监督的对比学习已被证明在多个领域取得了印象深刻的成功,因此得到广泛应用,其中包括ecg分类。其原理是利用无标记数据来构建正负样本,通过正负样本的对比来学习无标记数据的表征。如chen提出了simclr框架,该框架将单个样本转换为两个增强视图并执行对比学习,且由于其在学习特征表征方面出色,已被拓展到ecg领域。而有些是专门为医疗数据[22]设计的。如kiyasseh提出clocs框架,来自同一患者的心电表征及其增广视图(正样本)彼此相似,而跨患者的心电表征(负样本)彼此远离,但忽略了医学时间序列数据可表现在更细粒度的数据层级,从而抑制了模型学习心电图丰富的表征。wang提出comet框架,它从医学时间序列具有的四个级别,患者,试验,样本,观察点(时间戳)四个层次通过视图间数据增广执行对比学习,最大化捕获数据结构一致性信息。然而现有针对ecg表征学习的大多数样本扰动增广的方法集中在时域,较少关注频域,而频域隐含的信息更为丰富,它能够更适应捕获周期模式,对噪声和异常值更具弹性,为进一步提升表征质量留下了空间。
3、借助增广的数据进行自监督对比学习的预训练后,通常加入分类器头针对下游任务进行(分类)微调,然而现有的下游ecg分类任务是多标记学习任务,常采用传统的bce损失训练分类器忽略了多标记的类不平衡,导致每个类中正负样本数量之间的不平衡将它们各自的logit值推向远离零的不同距离,使特定于某个类的学习过拟合,模型决策边界偏向于少数类。
4、有鉴于此,特提出本发明。
技术实现思路
1、发明目的:鉴于上述问题,本发明的目的是针对现有技术不足之出提出改进,将不平衡学习分为两步完成,第一步是无监督的预训练对比表示学习,为此,针对ecg样本设计了一个频域mixup增广策略,即,fdm(frequency domain mixup),通过交换样本间的频域信息生成锚样本的增广作对比学习,fdm仅需一个编码器可实现时频域特征的融合,其不仅简化了模型架构而且提升了表征质量.第二步是微调阶段的分类器学习,为缓解心电图多标记不平衡问题,使模型关注那些样本较少但同样重要的少数类(罕见疾病),本文将基于标签频率的logi t补偿添加至已有二元交叉熵损失(lcbce),用以平衡分类器.本文将上述两步构成的整体方法简称为dalc(data augmentation&logit compensation)。
2、技术方案:为了实现上述目的,提供了以下技术方案:
3、dalc方法,至少包括:
4、步骤s1:对原始标准12导联心电数据进行归一化以及将数据集裁剪成多个时间段(样本)的预处理作为模型输入;
5、步骤s2:从数据集中随机选取时域两个样本作频域mixup.的数据增广得到两对原始和增广序列;
6、步骤s3:将两对原始和增广序列输入到编码器中编码得到其各自的特征表征并利用对比学习函数进行无监督的预训练;
7、步骤s4:将预训练后的表征输入到分类器中使用基于标签频率的logit补偿的二元交叉熵进行训练;
8、步骤s5:在测试阶段将测试数据集中的20%数据输入到已经训练好的模型中进行心电图的多标记分类。
9、有益效果:与现有技术相比,本发明技术方案至少具有以下有益效果:
10、1)针对ecg样本设计了一个频域mixup的样本增广策略fdm作对比学习,使对比学习增强了ecg的表征;
11、2)相比于其它用多个编码器提取样本时频域特征融合进行增广的方法[13],fdm仅需单个编码器可实现,简化了模型架构;
12、3)辨识在ecg的下游微调阶段存在多标记类不平衡学习问题.为此,本文通过对二元交叉熵进行基于标签频率的logit补偿来缓解该问题;
13、4)在cpsc2018基准数据集上的实验证明,将dalc作为独立模块插入至多个基线模型提升了各自的性能。
1.一种基于频域mixup增广和logit补偿的自监督多标记不平衡心电图分类方法,其特征在于,所述方法至少包括:
2.根据权利要求1所述的多标记不平衡心电图信号分类过程,其特征在于,步骤s1所述的具体包括对于数据集来源于2018年中国生理信号挑战,其中包含6877个12导联心电图记录,范围从6到60秒,采样频率为500hz,每个样本的长度设置为2500,类间表现为严重的类不平衡分布,预处理的过程为对其进行归一化,之后再进行切割,对于输入的每个样本xi∈rt×f,其中t为时间戳的长度,f为特征通道数。
3.根据权利要求2所述的心电图信号预处理过程,其特征在于,步骤s2所述的随机选取时域两个样本作频域mixup的数据增广得到两对原始和增广序列,具体包括:
4.根据权利要求3所述的样本作频域mixup的数据增广方法,其特征在于,步骤s3所述将两对原始和增广序列输入到编码器中编码得到其各自的特征表征并利用对比学习函数进行无监督的预训练,具体表示为将正对和负对(xi,xj)、输入到编码器g中得到它们各自的特征表征,hi=g(xi)、hj=g(xj)、对比损失函数l1[13]对于输入锚样本xi定义为:
5.根据权利要求4所述从编码器得到的各自特征表征并利用对比学习函数进行无监督的预训练,其特征在于,步骤s4所述将预训练后的表征输入到分类器中使用基于标签频率的logit补偿的二元交叉熵进行训练,具体包括:在训练过程中对各个类的logit进行δv′的动态调整,旨在消除数据中多标记类不平衡引起的偏差,并学习决策边界的校正,从而达到平衡标记空间的作用,定义该分类器的校正损失函数为以下形式:
6.根据权利要求5所述的将表征输入到分类器中使用基于标签频率的logit补偿的二元交叉熵进行训练,其特征在于,步骤s5所述在测试阶段将数据的20%的多标记不平衡心电数据作为测试数据集并输入到已经训练好的模型中进行心电图的多标记分类。