本发明属于医疗数据处理技术以及计算机机器学习领域,具体地说,是一种基于机器学习的萎缩性胃炎评估方法和装置。
背景技术:
1、萎缩性胃炎是一种缓慢发展的慢性胃部疾病,其临床表现不仅缺乏特异性,而且病变程度并不完全一致,因此在疾病的早期很难诊断。而当萎缩性胃炎发展到晚期的时候,就会出现明显的胃黏膜萎缩、胃壁变薄、胃功能下降,并且导致食欲减退、营养不良等问题。甚至根据correa联级理论,萎缩性胃炎可能会继续发展为肠上皮化生、不典型增生,最终发展为胃癌。这一过程是当前广泛被接受的胃癌发病模式。关键问题在于疾病早期的存活率很高,可以通过药物和手术治疗达到很好的效果,但当发展到晚期时存活率很低,尚没有很好的办法完全治愈。而传统的萎缩性胃炎诊断方法(内镜、手术、病理组织提取)有以下问题:
2、1、这些方法属于侵入性的检查方法,可能会引起一些并发症,如出血、感染、穿孔等,尤其是对于一些患有严重疾病的患者来说,可能会增加治疗风险。2、这些方法的使用成本通常较高,可能会增加患者的经济负担,且不宜普及使用。3、这些方法通常耗时较多,可能会延误患者的最佳治疗时间。
3、而机器学习方法是快速、低成本的,它突破了传统方法的局限性。因此人们开始尝试应用机器学习方法来诊断各种临床疾病。在医疗领域,机器学习的应用已经有了显著的进展。通过分析医学图像和临床数据,机器学习可以帮助医生进行疾病诊断。例如,在癌症诊断中,机器学习算法可以通过分析ct扫描、mri和其他医学影像数据,自动检测肿瘤并对其进行分类。这种自动化诊断可以帮助医生更准确地识别疾病,提高诊断的准确性和效率。尽管一些医学统计分析方法,如多元线性回归和逻辑回归已经被广泛应用于影响因素的医学统计分析和传统的胃癌风险早期预警。然而,这些统计分析方法有其局限性,不能很好地处理生物信息中的非线性关系。而机器学习可以协调原始数据的方差和偏差,从而准确地分析生物医学知识的非线性关系和变量之间的高阶交互作用。同时,机器学习方法也可以优化特征提取过程,获得更好的分类性能和泛化能力。
4、机器学习的性能在很大程度上取决于所分析数据的质量和合理性。生活方式行为,如饮食、饮酒和吸烟,被认为是患有萎缩性胃炎的重要原因和一级预防的主要目标。幽门螺杆菌感染是胃相关疾病的主要原因,被认为是胃癌的主要危险因素。此外,先前的研究已经证实血清胃蛋白酶原含量是胃癌的早期诊断依据。而获得这些数据的过程无创、简单、可以在现实中实现,可作为胃癌诊断的可靠临床诊断依据。
5、实际上,机器学习也包括了很多应用场景不同的模型,包括逻辑回归(logisticregression),支持向量机(support vector machine)等。对于萎缩性胃炎的预测问题,找到一个可以处理大量特征信息并快速有效地提供多分类预测结果、尽量检出全部高危病例的同时还要确保准确率的机器学习模型,也是本发明中需要重点考虑的问题之一。
技术实现思路
1、鉴于上述,本发明的目的是提供一种基于机器学习的萎缩性胃炎评估方法和装置,解决实际应用中传统诊断方法的侵入性、医疗费用相对高的等技术问题。
2、为实现上述发明目的,本发明实施例提供的一种基于机器学习的萎缩性胃炎评估方法,包括以下步骤:
3、获取病例人群的多项萎缩性胃炎风险因素数据并进行预处理;
4、获取病例人群的临床检测数据和生化数据,并基于临床检测数据和生化数据按照olga/olgim评判原则将病例人群划分为非萎缩性胃炎组、轻中度萎缩性胃炎组、以及重度萎缩性胃炎组这三组萎缩性胃炎风险等级,作为标注数据;
5、按照标签数据将预处理后的萎缩性胃炎风险因素数据划分为训练集和测试集;
6、采用adasyn过采样处理方式对训练集进行采样,基于采样后的数据采用改进的梯度提升决策树模型xgboostlss学习各组萎缩性胃炎风险因素与萎缩性胃炎风险等级之间的关系并进行分类训练,得到最佳评估模型;
7、利用最佳评估模型对测试集进行验证得到分类验证效果,并通过计算每项风险因素对应特征的特征评分对萎缩性胃炎风险因素的特征重要性进行了进一步分析,特征评分越高,对应萎缩性胃炎风险因素对于预测萎缩性胃炎危险等级的贡献越大。
8、优选地,所述萎缩性胃炎风险因素数据包括18项,分别为地区、年龄、性别、民族、疾病史、家族史、胃肠症状、饮食时间、盐摄入情况、糖分摄入情况、油脂摄入情况、是否进食辛辣食物、是否进食烫的食物、水果摄入情况、蔬菜摄入情况、豆制品摄入情况、牛奶摄入情况、以及饮酒情况。
9、优选地,对多项萎缩性胃炎风险因素数据进行预处理,包括:
10、首先,对各项数据进行统计得到统计特征,其中统计特征包括正常值范围、均值、方差、以及最值;
11、然后,对各项数据进行缺失值检测和异常值监测,并将包含缺失值和异常值的病例数据剔除。
12、优选地,所述临床检测数据和生化数据包括血清胃蛋白酶含量检测数据、幽门螺杆菌感染情况数据、以及胃镜检查数据。
13、优选地,对改进的梯度提升决策树模型xgboostlss进行分类训练时,采用gridsearch cv方法对模型进行调参,损失函数采用权重平衡过的f1分数。
14、优选地,在计算f1分数时,非萎缩性胃炎组、轻中度萎缩性胃炎组、重度萎缩性胃炎组的权重分别为1,2,7。
15、优选地,还包括:将预处理后的萎缩性胃炎风险因素数据划分为训练集和测试集前,随机扰动数据以防相同数据的堆叠,划分时使得训练集和测试集中均包含非萎缩性胃炎组、轻中度萎缩性胃炎组、以及重度萎缩性胃炎组。
16、优选地,还包括:对改进的梯度提升决策树模型xgboostlss进行分类训练时,若连续30次验证集度量保持不变,则提前结束训练,防止模型过拟合。
17、为实现上述发明目的,本发明实施例还提供了一种基于机器学习的萎缩性胃炎评估装置,包括:
18、风险因素数据模块,用于获取病例人群的多项萎缩性胃炎风险因素数据并进行预处理;
19、标注数据模块,用于获取病例人群的临床检测数据和生化数据,并基于临床检测数据和生化数据按照olga/olgim评判原则将病例人群划分为非萎缩性胃炎组、轻中度萎缩性胃炎组、以及重度萎缩性胃炎组这三组萎缩性胃炎风险等级,作为标注数据;
20、划分模块,用于按照标签数据将预处理后的萎缩性胃炎风险因素数据划分为训练集和测试集;
21、训练模块,用于采用adasyn过采样处理方式对训练集进行采样,基于采样后的数据采用改进的梯度提升决策树模型xgboostlss学习各组萎缩性胃炎风险因素与萎缩性胃炎风险等级之间的关系并进行分类训练,得到最佳评估模型;
22、验证模块,用于利用最佳评估模型对测试集进行验证得到分类验证效果,并通过计算每项风险因素对应特征的特征评分对萎缩性胃炎风险因素的特征重要性进行了进一步分析,特征评分越高,对应萎缩性胃炎风险因素对于预测萎缩性胃炎危险等级的贡献越大。
23、为实现上述发明目的,本发明实施例还提供了一种计算设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于机器学习的萎缩性胃炎评估方法的步骤。
24、与现有技术相比,本发明具有的有益效果至少包括:
25、1)将机器学习用于萎缩性胃炎的危险分级评估,提升预测精度的同时确保危险等级高的病例不被漏诊;
26、2)利用统计方法改进后的xgboostlss模型,可以识别到预测分布的变化,从而找出更细致的变量关系。同时可以给出量化的不确定性,供医生进行参考;
27、3)某种程度上,能有效的更早更方便地筛查出危险等级高的病人,为病人的早期治疗提供更大可能性;
28、4)对预测萎缩性胃炎的风险因素进行重要性排名,帮助医生重点关注病例的重要风险因素。
1.一种基于机器学习的萎缩性胃炎评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,所述萎缩性胃炎风险因素数据包括18项,分别为地区、年龄、性别、民族、疾病史、家族史、胃肠症状、饮食时间、盐摄入情况、糖分摄入情况、油脂摄入情况、是否进食辛辣食物、是否进食烫的食物、水果摄入情况、蔬菜摄入情况、豆制品摄入情况、牛奶摄入情况、以及饮酒情况。
3.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,对多项萎缩性胃炎风险因素数据进行预处理,包括:
4.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,所述临床检测数据和生化数据包括血清胃蛋白酶含量检测数据、幽门螺杆菌感染情况数据、以及胃镜检查数据。
5.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,对改进的梯度提升决策树模型xgboostlss进行分类训练时,采用gridsearch cv方法对模型进行调参,损失函数采用权重平衡过的f1分数。
6.根据权利要求5所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,在计算f1分数时,非萎缩性胃炎组、轻中度萎缩性胃炎组、重度萎缩性胃炎组的权重分别为1,2,7。
7.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,还包括:将预处理后的萎缩性胃炎风险因素数据划分为训练集和测试集前,随机扰动数据以防相同数据的堆叠,划分时使得训练集和测试集中均包含非萎缩性胃炎组、轻中度萎缩性胃炎组、以及重度萎缩性胃炎组。
8.根据权利要求1所述的基于机器学习的萎缩性胃炎评估方法,其特征在于,还包括:对改进的梯度提升决策树模型xgboostlss进行分类训练时,若连续30次验证集度量保持不变,则提前结束训练,防止模型过拟合。
9.一种基于机器学习的萎缩性胃炎评估装置,其特征在于,包括:
10.一种计算设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的基于机器学习的萎缩性胃炎评估方法的步骤。
