本发明涉及生物信息,特别是涉及一种aml患者程序性细胞死亡相关预后模型构建方法。
背景技术:
1、急性骨髓性白血病(acute myeloid leukemia,aml)是由髓细胞异常增殖和分化引起的一种异质性造血肿瘤。由于细胞遗传学和分子异常的范围很广,急性髓性白血病有不同的亚型。化疗一直是急性髓细胞性白血病的标准治疗方法,但10%-40%的新诊断急性髓细胞性白血病患者无法通过强化化疗获得完全缓解(cr),约50%获得缓解的急性髓细胞性白血病患者会在初始治疗后2-3年内复发。近年来,随着基础研究,尤其是大规模基因组分析,促进了aml诊断、风险分层和靶向治疗的发展。近年来,fda(美国食品和药物管理局)已批准吉特替尼用于r/rflt3突变的aml,伊伐替尼和恩那替尼分别用于r/ridh1和idh2突变的aml,这些抑制剂在一线治疗中已显示出良好的临床疗效。然而,现有的急性髓细胞性白血病标志物远不能满足临床需求,迫切需要进一步研究急性髓细胞性白血病的潜在生物标志物,将更多的预后因素纳入临床指南,从而改进风险分层模型,探索急性髓细胞性白血病靶向治疗的疗效和潜在机制,为药物设计和临床治疗提供潜在靶点和理论依据。
2、程序性细胞死亡(pcd)是指细胞在基因的控制下自主有序地死亡,以维持内环境的稳定。pcd紊乱或异常的诱导与多种疾病的发生密切相关,如神经系统疾病、代谢性疾病、自身免疫性疾病、传染性疾病和癌症等,预示着该领域在临床实践中具有广阔的应用前景。研究表明,pcd的调控机制有助于研究癌症靶向疗法的有效性,因此与pcd相关的不同子程序会影响癌症的进展和对疗法的反应。
3、目前已知的pcd类型主要包括细胞凋亡、坏死性凋亡、细胞焦亡、铁死亡、自噬依赖性细胞死亡、有丝分裂突变、免疫原性细胞死亡、肠内细胞死亡、依赖性细胞死亡、铜死亡、双硫死亡、坏死性凋亡、溶酶体依赖性细胞死亡、碱中毒、氧化中毒等。研究发现,许多不同的pcd相关基因与急性髓细胞白血病的治疗和预后有关。因此,研究aml中不同pcd通路之间的相互影响以及不同pcd通路相关分子标志物的异常表征,可以为aml的预后预测和靶向药物设计提供一定的依据,也为今后aml的诊断和治疗提供新的方向。
4、现阶段,有不少研究使用组学数据构建白血病预后模型,但能够转换到临床应用的却很少。基于上述研究现状,应用多种生物信息学和机器学习算法,开发一种能够预测aml患者总生存期的c-index,能够基于程序性细胞死亡相关特征对癌症患者进行早期诊断,预后预测的模型,对于临床评估和靶向药物设计具有重要意义,也是本领域的重要研究课题。
技术实现思路
1、本发明提供了一种aml患者程序性细胞死亡相关预后模型构建方法,应用多个样本量充足的公共数据库,选择所有验证集中平均c-index较高且pcd相关预后基因较少的方法构建最佳模型,并使用最佳模型计算pcd-index,在肿瘤患者预后预测和靶向药物设计过程中具有重要价值。
2、为实现上述目的,本发明提供了如下方案:
3、一种aml患者程序性细胞死亡相关预后模型构建方法,该方法包括以下步骤:
4、收集pcd相关基因;
5、基于收集的pcd相关基因,通过单因素cox回归分析,确定pcd相关预后基因,构建训练队列tcga-aml;
6、结合多种机器学习算法进行随机组合,得到多种不同组合方式的整合算法;
7、采用多种不同组合方式的整合算法,基于训练队列tcga-aml拟合预测模型,采用gse106291、gse146173和beataml三个验证集验证预测模型,并计算三个验证集的一致性指数c-index,反映每种整合算法下预测模型的判别能力;
8、选取c-index平均值较高且包含pcd相关预后基因数目最少的一个预测模型,作为最佳的程序性细胞死亡相关预后模型;
9、基于最佳的程序性细胞死亡相关预后模型,预测每个aml患者的pcd-index。
10、进一步地,所述收集pcd相关基因,具体包括:
11、基于tcga-laml队列和gse13159数据集,比较aml患者血液样本和正常血液样本之间的基因差异转录水平,鉴定差异表达的pcd相关基因。
12、进一步地,所述pcd相关基因,包括:
13、细胞凋亡基因,基因数目=89;自噬基因,基因数目=68;铁死亡基因,基因数目=36;溶酶体依赖性细胞死亡基因,基因数目=22;细胞坏死基因,基因数目=12;杯状细胞凋亡基因,基因数目=7;二硫化碳凋亡基因,基因数目=7;热凋亡基因,基因数目=4;氧化凋亡基因,基因数目=2;内生性细胞死亡基因,基因数目=1;共13种pcd模式。
14、进一步地,所述基于收集的pcd相关基因,通过单因素cox回归分析,确定pcd相关预后基因,构建训练队列tcga-aml,包括:
15、通过单因素cox回归分析,在pcd相关基因中选择p值小于0.05的基因作为pcd相关预后基因。
16、进一步地,所述结合多种机器学习算法进行随机组合,得到多种不同组合方式的整合算法,具体包括:
17、结合随机生存森林(rsf)、弹性网络(enet)、lasso、ridge、stepcox、coxboost、cox的偏最小二乘回归(plsrcox)、监督主成分(superpc)、广义提升回归模型(gbm)和生存支持向量机(survive-svm)10种机器学习算法,通过不同组合方式构成101种整合算法。
18、进一步地,所述选取c-index平均值较高且包含pcd相关预后基因数目最少的一个预测模型,作为最佳的程序性细胞死亡相关预后模型,具体包括:
19、c-index平均值最高的前四个预测模型是stepcox、α=0.1的enet、α=0.4的enet和coxboost+stepcox;其中,α即alpha,是控制正则化强度的超参数;
20、四个预测模型中包含的pcd相关预后基因数量分别为39、30、20和14个,基于包含基因数目最少的coxboost+stepcox模型,得到最佳的程序性细胞死亡相关预后模型。
21、进一步地,所述基于最佳的程序性细胞死亡相关预后模型,预测每个aml患者的pcd-index,具体包括:
22、pcd-index=(0.37434× arl6ip5exp)+(0.34330× ccdc6exp)+(0.25214× parp1exp)+(0.19137× acsf2exp)+(0.14562× smad3exp)+(1.06868× rnf41exp)+(0.09251× pdlim1exp)+(-0.753672× manbaexp)+(-0.50081×mib1exp)+(-0.42662× prkag2exp)+(-0.40219× mybexp)+(-0.18682× keap1exp)+(-0.09336×siah1exp)+(-0.06780× hgfexp)
23、其中, arl6ip5、ccdc6、parp1、acsf2、smad3、rnf41、pdlim1、manba、mib1、 prkag2、 myb、keap1、siah1、 hgf为pcd相关预后基因;exp表示基因表达量。
24、进一步地,所述方法还包括:
25、利用2个独立的数据队列,beataml和gse146173分别作为训练集和验证集对最佳的程序性细胞死亡相关预后模型进行预测效能验证,根据pcd-index的中位值将aml患者分为高pcd-index组和低pcd-index组,比较aml患者两组间的生存差异。
26、进一步地,所述方法还包括:
27、多个维度来评价最佳的程序性细胞死亡相关预后模型的预测效能:将影响生存的独立临床病理因素分别纳入到beataml和gse146173中,利用km曲线、time-roc曲线、校准曲线、决策曲线分析(dca)评估最佳的程序性细胞死亡相关预后模型的区分度和校准度。
28、根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的aml患者程序性细胞死亡相关预后模型构建方法,在应用多种生物信息学和机器学习算法构建预后模型过程中,应用多个样本量充足的公共数据库,并结合多种机器学习算法,最终选择所有验证集中c-index平均值较高且pcd基因较少的方法构建预后模型。该模型被认为是最佳模型,并使用最佳模型计算pcd-index。总之,本发明构建了一个可供参考的预后模型,在肿瘤患者预后预测和靶向药物设计过程中具有重要价值。
1.一种aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述收集pcd相关基因,具体包括:
3.根据权利要求1所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述pcd相关基因,包括:
4.根据权利要求1所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述基于收集的pcd相关基因,通过单因素cox回归分析,确定pcd相关预后基因,构建训练队列tcga-aml,包括:
5.根据权利要求1所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述结合多种机器学习算法进行随机组合,得到多种不同组合方式的整合算法,具体包括:
6.根据权利要求5所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述选取c-index平均值较高且包含pcd相关预后基因数目最少的一个预测模型,作为最佳的程序性细胞死亡相关预后模型,具体包括:
7.根据权利要求6所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述基于最佳的程序性细胞死亡相关预后模型,预测每个aml患者的pcd-index,具体包括:
8.根据权利要求7所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的aml患者程序性细胞死亡相关预后模型构建方法,其特征在于,所述方法还包括: