一组用于预测乳腺癌新辅助化疗敏感性的基因标签及应用的制作方法

专利2022-05-09  12


本发明属于肿瘤基因检测技术领域,具体涉及一组用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的由25个基因表达量所构成的基因标签及其应用。



背景技术:

2020年全球最新癌症数据显示,乳腺癌取代肺癌成为全球第一大癌,发病率全球第一,死亡率位居女性癌症死亡的首位,严重威胁女性生命健康(internationalagencyforresearchoncancer:latestglobalcancerdata:cancerburdenrisesto19.3millionnewcasesand10.0millioncancerdeathsin2020,2020)。乳腺癌是一种生物学特征高度异质性的恶性肿瘤,根据分子分型不同具有不同的临床特征、治疗反应和预后(rouzierr,peroucm,symmanswf,etal:breastcancermolecularsubtypesresponddifferentlytopreoperativechemotherapy.clincancerres11:5678-85,2005)。预测乳腺癌的治疗敏感性,选择最有效的治疗方法以避免过度治疗,是乳腺癌精准治疗的基础。

评价新辅助化疗的敏感性是临床实践中一项重要任务。新辅助化疗后获得病理完全缓解(pcr)的患者比残留疾病(rd)患者表现出更好的长期无病生存能力(hesskr,andersonk,symmanswf,etal:pharmacogenomicpredictorofsensitivitytopreoperativechemotherapywithpaclitaxelandfluorouracil,doxorubicin,andcyclophosphamideinbreastcancer.jclinoncol24:4236-44,2006)。以紫杉醇和蒽环为基础的新辅助化疗是乳腺癌的标准治疗方案,但文献报道不同的乳腺癌患者使用该方案的pcr率仅为6%-30%(gonzalez-anguloam,iwamotot,lius,etal:geneexpression,molecularclasschanges,andpathwayanalysisafterneoadjuvantsystemictherapyforbreastcancer.clincancerres18:1109-19,2012)。识别哪些患者会获得pcr从治疗中受益,哪些患者治疗获益的可能性很低或没有,使他们规避该方案化疗的毒性,更早地应用替代方法非常重要。

文献已报道有多种生物标志物可以预测化疗疗效,但多数只能预测对单个药物的敏感性。国外有学者开发出多基因生物标志物(基因标签)如oncotypedx,mammaprint,pam50,endopredict,genomicgradeindex(ggi)来预测联合化疗是否可减少患者复发风险(kwam,makrisa,estevafj:clinicalutilityofgene-expressionsignaturesinearlystagebreastcancer.natrevclinoncol14:595-610,2017)。但这些方法预测化疗疗效不理想,临床应用价值低。其中仅oncotypedx基因标签被美国国家综合癌症网络(nccn)乳腺癌小组推荐用于淋巴结阴性乳腺癌以识别哪些患者需给予辅助化疗来降低复发风险。但迄今为止,还没有开发出临床可用的预测乳腺癌新辅助化疗效果,即预测能否获得病理完全缓解(pcr)),用于指导乳腺癌患者选择化疗方案的基因标签。



技术实现要素:

为了解决上述技术问题,本发明的目的之一在于提供一组用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的基因标签。

为了实现本发明的目的,本发明采用了以下技术方案:

一组用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的基因标签,该基因标签由adamdec1,ccl18,cd79a,cd96,cxcl13,diras3,erbb4,evl,gamt,gbp1,gfra1,gzmb,hspb8,ighm,irs1,itk,loc102723479,mapt,padi2,rln2,sel1l3,serpina5,stc2,stk32b和sybu共25个基因组成。

进一步的,以lasso逻辑回归模型构建包含所述基因标签中各基因表达量的用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式。

进一步的,用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×(0.0032~0.0033) ccl18表达量×(0.0457~0.0458) cd79a表达量×(8.6115~8.6116) cd96表达量×(6.2220~6.2221) cxcl13表达量×(-0.5851~-0.5852) diras3表达量×(-6.0819~-6.0820) erbb4表达量×(1.7290~1.7291) evl表达量×(-1.7036~-1.7037) gamt表达量×(-8.8489~-8.8490) gbp1表达量×(-0.7646~-0.7647) gfra1表达量×(-0.1159~-0.1160) gzmb表达量×(-0.0752~-0.0753) hspb8表达量×(-1.2886~-1.2887) ighm表达量×(-1.3731~-1.3732) irs1表达量×(0.2500~0.2501) itk表达量×(-2.3029~-2.3030) loc102723479表达量×(0.3854~0.3855) mapt表达量×(0.2861~0.2862) padi2表达量×(0.7831~0.7832) rln2表达量×(-1.5620~-1.5621) sel1l3表达量×(-2.9842~-2.9843) serpina5表达量×(0.2565~0.2566) stc2表达量×(0.4303~0.4304) stk32b表达量×(-1.2839~-1.2840) sybu表达量×(-0.7062~-0.7063)。式中,表达量没有单位。

进一步的,用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×0.00321747620626765 ccl18表达量×0.0457079749167309 cd79a表达量×8.61152358256599 cd96表达量×6.22205851428899 cxcl13表达量×(-0.585126092824241) diras3表达量×(-6.08198493202845) erbb4表达量×1.72908010036751 evl表达量×(-1.70368931131805) gamt表达量×(-8.84896004120253) gbp1表达量×(-0.764626193845283) gfra1表达量×(-0.115908259316488) gzmb表达量×(-0.0752619689246736) hspb8表达量×(-1.28866942797256) ighm表达量×(-1.37319937849059) irs1表达量×0.250096649476748 itk表达量×(-2.30297033083433) loc102723479表达量×0.385454564188641 mapt表达量×0.286187494306212 padi2表达量×0.783128470665541 rln2表达量×(-1.56204367828805) sel1l3表达量×(-2.98426861278556) serpina5表达量×0.25651424658033 stc2表达量×0.430345120497431 stk32b表达量×(-1.28399430856461) sybu表达量×(-0.706271090221699),式中,表达量没有单位。

本发明的目的之二在于提供上述用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的基因标签的应用,包括以下一种或几种:制备预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的定量基因标签表达量的试剂,制备预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的定量基因标签表达量的系统或装置。

进一步的,所述定量基因标签表达量使用基因芯片或二代高通测序检测或pcr,所述定量基因标签表达量的试剂为核酸探针或引物。

进一步的,所述定量基因标签表达量由lasso逻辑回归模型构建用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式,该评分公式与前述一致,其进一步的公式与前述一致。

本发明的有益效果在于:

1.本发明利用lasso逻辑回归,构建了一组由25个基因构成的基因标签。该模型预测能力优于以往文献报道的预测模型,如以ggi和临床变量建立的预测模型auc为0.735,基于30基因的预测模型在初始数据集中的预测auc为0.877,但再次验证时auc仅为0.711(liedtkec,hatzisc,symmanswf,etal:genomicgradeindexisassociatedwithresponsetochemotherapyinpatientswithbreastcancer.jclinoncol27:3185-91,2009)(hesskr,andersonk,symmanswf,etal:pharmacogenomicpredictorofsensitivitytopreoperativechemotherapywithpaclitaxelandfluorouracil,doxorubicin,andcyclophosphamideinbreastcancer.jclinoncol24:4236-44,2006)(tabchya,valerov,vidaurret,etal:evaluationofa30-genepaclitaxel,fluorouracil,doxorubicin,andcyclophosphamidechemotherapyresponsepredictorinamulticenterrandomizedtrialinbreastcancer.clincancerres16:5351-61,2010)。本发明通过对训练组建模和多个验证组的重复验证,都表现出良好的预测效果。因此更有潜力用于临床指导乳腺癌新辅助化疗方案的选择,甄别患者是否从新辅助化疗中获益,避免过度治疗、降低医疗成本,以期达到精准治疗和个体化用药的目的。

2.本发明的内容将有助于甄别具有“pcr潜能”的乳腺癌患者,做到提前预测治疗获益,从而对大部分“无效者”更早应用替代方法,可使患者免于新辅助化疗的毒副作用。

附图说明

图1中图1a是本发明lasso回归预测模型构建十折交叉验证筛选模型参数,获得预测标志物构建基因标签;图1b为各预测标志物在训练组的回归系数。

图2是基于本发明的基因标签的预测评分模型在训练组和验证组预测pcr和rd组的roc曲线图。训练组(trainingset);验证组1(test1set);验证组2(test2set);验证组3(test3set);验证组4(test4set)。

图3是基于本发明的基因标签的预测评分模型在训练组和验证组对pcr和rd组的区分。从图上可以看出,pcr组预测评分明显高于rd组。其中a为训练组,n=115;b为验证组1,n=74;c为验证组2,n=207;d为验证组3,n=227;e为验证组4,n=121。

图4是基于本发明的分子标签的预测评分模型在训练组和验证组中对不同乳腺癌亚型的区分。从图上可以看出,乳腺癌her2阳性(hr阴性)和tnbc亚型的预测评分高于her2阳性(hr阳性)和luminal(a/b)亚型。其中a为训练组,n=115;b为验证组1,n=74;c为验证组2,n=207;d为验证组3,n=227;e为验证组4,n=121。

具体实施方式

下面结合实验,对本发明的技术方案做出更为具体的说明:

实施例1:病例数据集搜集和差异基因筛选

发明人选取了744份乳腺癌新辅助治疗患者的样本。这些患者均接受紫杉醇和氟尿嘧啶-多柔比星-环磷酰胺(t/fac)或紫杉醇和多柔比星-环磷酰胺(t/ac)新辅助化疗,分别来自geo数据库不同平台的5个基因表达数据集gse32646(芯片平台gpl570),gse20271(芯片平台gpl96),gse20194(芯片平台gpl570),gse25055(芯片平台gpl96),gse41998(芯片平台gpl571)。除gse25055数据集只含her2阴性乳腺癌,其他数据集包含乳腺癌所有类型。

发明人以adjustedp<0.05,|log2fc|>0.6为标准,筛选gse32646和gse20271数据集中pcr组和rd组的差异基因分别为238个和224个,取交集得到共同的差异基因54个。

实施例2:乳腺癌紫杉醇和蒽环新辅助化疗敏感性预测标志物的发现

使用lasso方法通过最小标准的部分似然偏差来选择预测t/fac新辅助化疗pcr的最佳生物标志物。以十折交叉验证计算分组分类,通过二分类逻辑回归得到auc曲线,因此,lasso方法给每个签名赋一个回归系数。在此基础上,利用回归系数构造一个评分系统,对所选签名的值进行加权。发明人取gse32646数据集的54个共同差异基因作为训练组(trainingset),共115例患者,t/fac新辅方案化疗后,pcr患者27例,占23.48%,rd患者88例,占76.52%。利用r语言“glmnet”软件包对训练组中的54个共同差异基因进行lasso回归分析,如图1a所示,根据最优惩罚值lambda.min=0.000798599,取非零回归系数的基因作为预测pcr的最佳生物标志物,筛选出与乳腺癌紫杉醇和蒽环新辅助化疗敏感性预测最为相关的25个基因,将非零回归系数代入公式,系数如图1b所示,构建基因标签预测模型,筛选出与乳腺癌紫杉醇和蒽环新辅助化疗敏感性预测最为相关的25个基因构建基因标签预测模型。发明人将这组25个基因构成的基因标签命名为25-gene标签(25-genesignature),以此构建模型的预测评分计算公式为:

预测评分=expgene1×coef1 expgene2×coef2 expgene3×coef3 …

其中“coef”是gene的回归系数,由lasso逻辑回归得到,“expgene”表示gene的表达量。基于此公式,

25-gene标签预测评分即分值=adamdec1表达量×0.00321747620626765 ccl18表达量×0.0457079749167309 cd79a表达量×8.61152358256599 cd96表达量×6.22205851428899 cxcl13表达量×(-0.585126092824241) diras3表达量×(-6.08198493202845) erbb4表达量×1.72908010036751 evl表达量×(-1.70368931131805) gamt表达量×(-8.84896004120253) gbp1表达量×(-0.764626193845283) gfra1表达量×(-0.115908259316488) gzmb表达量×(-0.0752619689246736) hspb8表达量×(-1.28866942797256) ighm表达量×(-1.37319937849059) irs1表达量×0.250096649476748 itk表达量×(-2.30297033083433) loc102723479表达量×0.385454564188641 mapt表达量×0.286187494306212 padi2表达量×0.783128470665541 rln2表达量×(-1.56204367828805) sel1l3表达量×(-2.98426861278556) serpina5表达量×0.25651424658033 stc2表达量×0.430345120497431 stk32b表达量×(-1.28399430856461) sybu表达量×(-0.706271090221699)。式中,表达量没有单位。

进一步,使用r语言中的proc包绘制roc曲线,如图2所示。训练组(trainingset)的模型评价指标roc(receiveroperatingcharacteristic,受试者工作特征)以曲线下面积(auc)为1.0,准确性(accuracy,ac)为1.0,敏感度(sensitivity,se)为1.0,特异度(specificity,sp)为1.0,阳性预测值(positivepredictivevalue,ppv)为1.0,阴性预测值(negativepredictivevalue,npv)为1.0评价模型的性能,具有非常好的预测能力。

实施例3:预测模型的验证

发明人使用不同平台的4个数据集对这组包含25个基因的基因标签所构建的预测模型进行了验证。即通过25个基因的表达量来计算每个样本的预测评分,通过受试者工作特征roc曲线的各项指标来评价其对pcr与rd样本的区分能力。验证结果如下:

gse20271验证组1(test1set)共74例患者,t/fac新辅方案化疗后,pcr患者17例(22.97%),rd患者57例(77.03%),根据模型评分预测pcr患者14例(18.92%),rd患者60例(81.08%),模型评价指标auc为0.9071,ac为0.9054,se为0.7059,sp为0.9649,ppv为0.8571,npv为0.9167,准确度良好。

gse20194验证组2(test2set)的207例患者,t/fac新辅方案化疗后,pcr患者46例(22.22%),rd患者161例(77.78%),根据模型评分预测pcr患者48例(23.19%),rd患者159例(76.81%%),模型评价指标auc为0.9683,ac为0.9614,se为0.9348,sp为0.9689,ppv为0.8958,npv为0.9811,准确度良好。

gse25055验证组3(test3set)的227例患者,t/fac新辅方案化疗后,pcr患者43例(18.94%),rd患者184例(81.06%),根据模型评分预测pcr患者53例(23.35%),rd患者174例(76.65%),模型评价指标auc为0.9151,ac为0.8722,se为0.7727,sp为0.8962,ppv为0.6415,npv为0.9425,准确度良好。

gse41998验证组4(test4set)的121例患者,t/ac新辅方案化疗后,pcr患者34例(28.10%),rd患者87例(71.90%),根据模型评分预测pcr患者27例(22.31%),rd患者94例(77.69%),模型评价指标auc为0.735,ac为0.7107,se为0.3824,sp为0.8391,ppv为0.4815,npv为0.7766,准确度良好。

由上述数据可以看出,本预测模型的预测能力在不同平台来源的4个芯片数据集中得到验证,包括3个t/fac数据集和1个t/ac数据集。基于t/fac和t/ac两种乳腺癌新辅助方案所用化疗药物都是以紫杉醇和蒽环为基础,尽管t/fac的模型参数比t/ac略高,但都表现出较好的预测能力。另外,gse25055数据集只包含her2阴性亚型的数据,但该模型对her2阴性乳腺癌也有良好预测结果(auc=0.9151),表明该预测模型不仅可以作为不区分亚型的乳腺癌新辅助化疗的普遍预测,也可以精确用于乳腺癌的某一种亚型,如her2阴性亚型的化疗敏感性预测。

如图3所示,本发明的基因标签的预测评分模型在训练组和验证组可对pcr和rd组有效区分,pcr组预测评分明显高于rd组。如图4所示,本发明的分子标签的预测评分模型在训练组和验证组中可对不同乳腺癌亚型的区分,乳腺癌her2阳性(hr阴性)和tnbc亚型的预测评分高于her2阳性(hr阳性)和luminal(a/b)亚型。这也和临床数据一致。图3和4的结果进一步证明模型可有效预测pcr。

综上所述,基于auc、ac、se、sp、ppv和npv值,该模型在不同数据集平台和不同乳腺癌亚型上表现出良好的预测能力和泛化能力,具有良好的临床应用潜力。

以上实施方式仅用以说明本发明的技术方案,而并非对本发明的限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。


技术特征:

1.一组用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的基因标签,该标签由25个基因构成,所述基因名称分别为:adamdec1,ccl18,cd79a,cd96,cxcl13,diras3,erbb4,evl,gamt,gbp1,gfra1,gzmb,hspb8,ighm,irs1,itk,loc102723479,mapt,padi2,rln2,sel1l3,serpina5,stc2,stk32b和sybu。

2.如权利要求1所述的基因标签,其特征在于:以lasso逻辑回归模型构建包含所述基因标签中各基因表达量的用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式。

3.如权利要求1或2所述的基因标签,其特征在于:用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×(0.0032~0.0033) ccl18表达量×(0.0457~0.0458) cd79a表达量×(8.6115~8.6116) cd96表达量×(6.2220~6.2221) cxcl13表达量×(-0.5851~-0.5852) diras3表达量×(-6.0819~-6.0820) erbb4表达量×(1.7290~1.7291) evl表达量×(-1.7036~-1.7037) gamt表达量×(-8.8489~-8.8490) gbp1表达量×(-0.7646~-0.7647) gfra1表达量×(-0.1159~-0.1160) gzmb表达量×(-0.0752~-0.0753) hspb8表达量×(-1.2886~-1.2887) ighm表达量×(-1.3731~-1.3732) irs1表达量×(0.2500~0.2501) itk表达量×(-2.3029~-2.3030) loc102723479表达量×(0.3854~0.3855) mapt表达量×(0.2861~0.2862) padi2表达量×(0.7831~0.7832) rln2表达量×(-1.5620~-1.5621) sel1l3表达量×(-2.9842~-2.9843) serpina5表达量×(0.2565~0.2566) stc2表达量×(0.4303~0.4304) stk32b表达量×(-1.2839~-1.2840) sybu表达量×(-0.7062~-0.7063)。

4.如权利要求3所述的基因标签,其特征在于:用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×0.00321747620626765 ccl18表达量×0.0457079749167309 cd79a表达量×8.61152358256599 cd96表达量×6.22205851428899 cxcl13表达量×(-0.585126092824241) diras3表达量×(-6.08198493202845) erbb4表达量×1.72908010036751 evl表达量×(-1.70368931131805) gamt表达量×(-8.84896004120253) gbp1表达量×(-0.764626193845283) gfra1表达量×(-0.115908259316488) gzmb表达量×(-0.0752619689246736) hspb8表达量×(-1.28866942797256) ighm表达量×(-1.37319937849059) irs1表达量×0.250096649476748 itk表达量×(-2.30297033083433) loc102723479表达量×0.385454564188641 mapt表达量×0.286187494306212 padi2表达量×0.783128470665541 rln2表达量×(-1.56204367828805) sel1l3表达量×(-2.98426861278556) serpina5表达量×0.25651424658033 stc2表达量×0.430345120497431 stk32b表达量×(-1.28399430856461) sybu表达量×(-0.706271090221699)。

5.一种如权利要求1所述的基因标签的应用,其特征在于:所述应用包括制备预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的定量基因标签表达量的试剂,制备预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的定量基因标签表达量的系统或装置。

6.如权利要求5所述的应用,其特征在于:所述定量基因标签表达量使用基因芯片或二代高通测序检测或pcr,所述定量基因标签表达量的试剂为核酸探针或引物。

7.如权利要求5所述的应用,其特征在于:所述定量基因标签表达量由lasso逻辑回归模型构建用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式。

8.如权利要求7所述的应用,用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×(0.0032~0.0033) ccl18表达量×(0.0457~0.0458) cd79a表达量×(8.6115~8.6116) cd96表达量×(6.2220~6.2221) cxcl13表达量×(-0.5851~-0.5852) diras3表达量×(-6.0819~-6.0820) erbb4表达量×(1.7290~1.7291) evl表达量×(-1.7036~-1.7037) gamt表达量×(-8.8489~-8.8490) gbp1表达量×(-0.7646~-0.7647) gfra1表达量×(-0.1159~-0.1160) gzmb表达量×(-0.0752~-0.0753) hspb8表达量×(-1.2886~-1.2887) ighm表达量×(-1.3731~-1.3732) irs1表达量×(0.2500~0.2501) itk表达量×(-2.3029~-2.3030) loc102723479表达量×(0.3854~0.3855) mapt表达量×(0.2861~0.2862) padi2表达量×(0.7831~0.7832) rln2表达量×(-1.5620~-1.5621) sel1l3表达量×(-2.9842~-2.9843) serpina5表达量×(0.2565~0.2566) stc2表达量×(0.4303-0.4304) stk32b表达量×(-1.2839~-1.2840) sybu表达量×(-0.7062~-0.7063)。

9.如权利要求8所述的应用,用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的评分公式为:分值=adamdec1表达量×0.00321747620626765 ccl18表达量×0.0457079749167309 cd79a表达量×8.61152358256599 cd96表达量×6.22205851428899 cxcl13表达量×(-0.585126092824241) diras3表达量×(-6.08198493202845) erbb4表达量×1.72908010036751 evl表达量×(-1.70368931131805) gamt表达量×(-8.84896004120253) gbp1表达量×(-0.764626193845283) gfra1表达量×(-0.115908259316488) gzmb表达量×(-0.0752619689246736) hspb8表达量×(-1.28866942797256) ighm表达量×(-1.37319937849059) irs1表达量×0.250096649476748 itk表达量×(-2.30297033083433) loc102723479表达量×0.385454564188641 mapt表达量×0.286187494306212 padi2表达量×0.783128470665541 rln2表达量×(-1.56204367828805) sel1l3表达量×(-2.98426861278556) serpina5表达量×0.25651424658033 stc2表达量×0.430345120497431 stk32b表达量×(-1.28399430856461) sybu表达量×(-0.706271090221699)。

技术总结
本发明属于肿瘤基因检测技术领域,具体涉及一组用于预测乳腺癌紫杉醇和蒽环新辅助化疗敏感性的基因标签及其应用。在本发明中,基于LASSO逻辑回归获得与乳腺癌新辅助化疗敏感性相关的25个基因构成的基因标签,计算预测包含基因表达量的评分可以准确地预测乳腺癌患者使用紫杉醇和蒽环新辅助化疗的敏感性,预测患者对治疗的反应,甄别患者是否从化疗中获益,从而指导乳腺癌新辅助化疗方案的选择,避免过度治疗,并降低医疗成本。

技术研发人员:杨武林;傅昌芳;刘雨;戴海明;王宏志
受保护的技术使用者:中国科学院合肥物质科学研究院;中国科学院合肥肿瘤医院
技术研发日:2021.03.25
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350422.html

最新回复(0)