筛选免疫组库测序生物标志物的方法、设备和存储介质与流程

专利2022-05-10  38



1.本公开总体上涉及生物信息处理,并且具体地,涉及用于筛选免疫组库测序生物标志物的方法、设备和存储介质。


背景技术:

2.在生物个体中,在任何指定时间,循环系统中所有的功能多样性b细胞和t细胞的总和称之为免疫组库(immune repertoire,ir)。t细胞和b细胞作为生物体内(例如人体内)主要的淋巴细胞,分别负责细胞免疫和体液免疫,t细胞受体(tcr)和b细胞受体(bcr)由多条肽链组成,具有抗原结合特异性,每条肽链的互补决定区(cdr,又称超变区)氨基酸组成和排列顺序呈现高度多样性,构成容量巨大的t细胞受体和b细胞受体库,研究表明亚型越多,越能有效抵抗细菌、病毒等病原体侵袭,亚型越少越容易感染疾病。
3.免疫组库的鉴定和准确定量对个体的免疫组库系统有着重要的意义。如何评估样本中的哪一些或者哪一个优势克隆(或者说显著性差异的克隆)在发挥着主要免疫功能,抵抗疾病或促使疾病的痊愈,变得至关重要。
4.传统的用于筛选免疫组库测序生物标志物的方法例如是主要依赖于宏观层面的克隆多样性来对疾病的检测、进展和预后进行判别,在发现那些执行主要免疫功能的优势克隆方面存在欠缺;另外,传统的用于筛选免疫组库测序生物标志物的方法还例如是采用t检验,未考虑克隆基因的种类对显著性差异的影响;因此,容易导致筛选结果的可靠性较低。
5.综上,传统的用于筛选免疫组库测序生物标志物的方法存在所筛选出的免疫组库的生物标志物的可靠性不高的不足之处。


技术实现要素:

6.本公开提供一种用于筛选免疫组库测序生物标志物的方法、计算设备和计算机存储介质,能够显著提高所筛选出的免疫组库的生物标志物的可靠性。
7.根据本公开的第一方面,提供了一种筛选免疫组库测序生物标志物的方法。该方法包括:获取关于样本的免疫组库测序数据,以用于确定所述样本中的每一种克隆的初始绝对丰度;基于所述样品内克隆基因的初始绝对丰度、所述样品内所有克隆的绝对丰度的总和,计算所述样品内克隆基因的第一相对丰度;响应于确定克隆基因的初始绝对丰度大于预定阈值,确定所述克隆基因的第一绝对丰度为1;基于所述样品内克隆基因的第一绝对丰度、所述样品内所有克隆的第一绝对丰度的总和,计算所述样品内克隆基因的第二相对丰度;基于克隆基因的第一相对丰度和第二相对丰度,确定候选克隆基因;以及针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物,所述第二检验不同于第一检验。
8.根据本发明的第二方面,还提供了一种计算设备,该设备包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一
个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的第一方面的方法。
9.根据本公开的第三方面,还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
10.在一些实施例中,基于克隆基因的第一相对丰度和第二相对丰度确定候选克隆基因包括:针对克隆基因的第一相对丰度进行排序,以便将排序顺序小于第一预定顺序阈值的多个克隆基因确定为第一候选克隆基因;针对克隆基因的第二相对丰度进行排序,以便将排序顺序小于第二预定顺序阈值的多个克隆基因确定为第二候选克隆基因;以及基于第一候选克隆基因和第二候选克隆基因的交集或者并集,确定候选克隆基因。
11.在一些实施例中,针对候选克隆基因进行第一检验和第二检验以便基于校验结果数据确定免疫组库测序生物标志物包括:针对候选克隆基因的第一相对丰度分别进行第一检验和第二检验,以便分别生成第一校验结果数据和第二校验结果数据;针对候选克隆基因的第二相对丰度分别进行第一检验和第二检验,以便生成第三校验结果数据和第四校验结果数据;以及基于第一校验结果数据、第二校验结果数据、第三校验结果数据和第四校验结果数据,在候选克隆基因中确定免疫组库测序生物标志物。
12.在一些实施例中,基于第一校验结果数据、第二校验结果数据、第三校验结果数据和第四校验结果数据在候选克隆基因中确定免疫组库测序生物标志物包括:基于第一校验结果数据和第一阈值的比较,确定关于候选克隆基因的第一显著性差异数据;基于第二校验结果数据和第二阈值的比较,确定关于候选克隆基因的第二显著性差异数据;基于第三校验结果数据和第三阈值的比较,确定关于候选克隆基因的第三显著性差异数据;基于第四校验结果数据和第四阈值的比较,确定关于候选克隆基因的第四显著性差异数据;以及基于第一显著性差异数据、第二显著性差异数据、第三显著性差异数据和第四显著性差异数据,在候选克隆基因中确定免疫组库测序生物标志物。
13.在一些实施例中,基于第二校验结果数据和第二阈值的比较确定关于候选克隆基因的第二显著性差异数据包括:响应于确定第二校验结果数据大于或者等于第二阈值,确定第一组和第二组中关于候选克隆基因的第二显著性差异数据指示存在显著差异;以及响应于确定第二校验结果数据小于第二阈值,确定第一组和第二组中关于候选克隆基因的第二显著性差异数据指示不存在显著差异。
14.在一些实施例中,筛选免疫组库测序生物标志物的方法还包括:响应于确定克隆基因的初始绝对丰度小于或者等于预定阈值,确定所述克隆基因的第一绝对丰度为0。
15.在一些实施例中,所述第一检验为秩和检验,所述第二检验为方差分析检验。
16.在一些实施例中,所述第一检验为wilcoxon检验,所述第二检验为anova检验。
17.在一些实施例中,获取关于样本的免疫组库测序数据以用于确定所述样本中的每一种克隆的初始绝对丰度包括:经由针对样本进行二代测序,获得关于样本的免疫组库测序数据;将免疫组库测序数据与关于克隆的预定数据库进行比较,以便确定所述样本中的每一种克隆;计算所述样本中的每一种克隆的初始绝对丰度;以及针对每一种克隆的初始绝对丰度进行归一化处理。
18.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体
实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
19.图1示出了根据本公开的实施例的用于实施筛选免疫组库测序生物标志物的方法的系统的示意图。
20.图2示出了根据本公开的实施例的用于筛选免疫组库测序生物标志物的方法的流程图。
21.图3示出了根据本公开的实施例的用于生成校验结果数据的方法的流程图。
22.图4示出了根据本公开的实施例的用于基于校验结果数据筛选免疫组库测序生物标志物的方法的流程图。
23.图5示出了根据本公开的实施例的经由针对候选克隆基因的第一相对丰度进行第一检验而生成的第一校验结果数据的示意图。
24.图6示出了根据本公开的实施例的经由针对候选克隆基因的第一相对丰度进行第二检验而生成的第二校验结果数据的示意图。
25.图7示出了根据本公开的实施例的经由针对候选克隆基因的第二相对丰度进行第一检验而生成的第三校验结果数据的示意图。
26.图8示出了根据本公开的实施例的经由针对候选克隆基因的第二相对丰度进行第二检验而生成的第四校验结果数据的示意图。
27.图9示意性示出了适于用来实现本公开实施例的电子设备的框图。
28.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
29.下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
30.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
31.如前文提及,传统的用于筛选免疫组库测序生物标志物的方法例如是主要依赖于宏观层面的克隆多样性来对疾病的检测、进展和预后进行判别,在发现那些执行主要免疫功能的优势克隆方面存在欠缺;另外,传统的用于筛选免疫组库测序生物标志物的方法还例如是采用t检验,未考虑克隆基因的种类对显著性差异的影响;因此,容易导致筛选结果的可靠性较低。
32.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于筛选免疫组库测序生物标志物的方案。在该方案中,通过经由所获取的免疫组库测序数据确定所述样本中的每一种克隆的初始绝对丰度;然后基于克隆基
因的初始绝对丰度和所述样品内所有克隆的绝对丰度的总和来计算所述样品内克隆基因的第一相对丰度。本公开可以通过第一相对丰度在克隆基因的定量上考虑了克隆的绝对丰度,即从整体考察克隆在样本中的重要性。另外,本公开通过在确定克隆的初始绝对丰度大于预定阈值时,确定所述样品克隆基因的第一绝对丰度为1;以及基于克隆基因的第一绝对丰度和所述样品内所有克隆的第一绝对丰度的总和,计算所述样品内克隆基因的第二相对丰度。本公开可以通过第二相对丰度在克隆基因的定量上不考虑克隆的绝对丰度,也即对应克隆的v(d)j基因分别计为1,依此对克隆基因进行定量,进而能够从克隆的种类方面考察克隆在样本中的重要性。再者,本公开通过基于第一相对丰度和第二相对丰度,确定候选优势克隆;以及针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物,所述第二检验不同于第一检验,本公开能够通过两种定量方法同时从克隆的整体表达量和克隆种类两方面考察克隆的重要性,而且经由不同的两种校验,使得最终筛选出有显著差异的克隆作为免疫组库的生物标志物,因而本公开能够显著提高所筛选出的免疫组库的生物标志物的可靠性。
33.图1示出了根据本公开的实施例的用于实施筛选免疫组库测序生物标志物的方法的系统100的示意图。如图1所示,系统100例如包括计算设备110、测序设备130、生信服务器150和网络140。计算设备110可以通过网络140以有线或者无线的方式与测序设备130、生信服务器150进行数据交互。
34.计算设备110用于筛选免疫组库测序生物标志物。具体而言,计算设备110用于基于获取来自测序设备130或者生信服务器150的关于样本的免疫组库测序数据;确定所述样本中的每一种克隆的初始绝对丰度;以及计算所述样品内克隆基因的第一相对丰度。计算设备110还用于确定所计算的每一种克隆的初始绝对丰度是否大于预定阈值;如果确定当前种类的克隆基因的初始绝对丰度大于预定阈值,确定当前种类的克隆基因的第一绝对丰度为1;以及计算所述样品内克隆基因的第二相对丰度。计算设备110还用于基于克隆基因的第一相对丰度和第二相对丰度来确定候选克隆基因;以及针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物。计算设备110可以具有一个或多个处理单元,包括诸如gpu、fpga和asic等的专用处理单元以及诸如cpu的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括克隆初始绝对丰度计算单元112、第一相对丰度计算单元114、克隆基因的第一绝对丰度确定单元116、第二相对丰度计算单元118、候选克隆基因确定单元120、免疫组库测序生物标志物确定单元122。上述克隆初始绝对丰度计算单元112、第一相对丰度计算单元114、克隆基因的第一绝对丰度确定单元116、第二相对丰度计算单元118、候选克隆基因确定单元120、免疫组库测序生物标志物确定单元122。可以配置在一个或者多个计算设备110上。
35.关于克隆初始绝对丰度计算单元112,其用于获取关于样本的免疫组库测序数据,以用于确定所述样本中的每一种克隆的初始绝对丰度。
36.关于第一相对丰度计算单元114,其用于基于所述样品内克隆基因的初始绝对丰度、所述样品内所有克隆的绝对丰度的总和,计算所述样品内克隆基因的第一相对丰度。
37.关于克隆基因的第一绝对丰度确定单元116,其用于确定每一种克隆基因的初始绝对丰度是否大于预定阈值;以及如果确定克隆基因的初始绝对丰度大于预定阈值,确定所述克隆基因的第一绝对丰度为1。
38.关于第二相对丰度计算单元118,其用于基于所述样品内克隆基因的第一绝对丰度、所述样品内所有克隆的第一绝对丰度的总和,计算所述样品内克隆基因的第二相对丰度。
39.关于候选克隆基因确定单元120,其用于基于克隆基因的第一相对丰度和第二相对丰度,确定候选克隆基因。
40.关于、免疫组库测序生物标志物确定单元122其用于针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物,所述第二检验不同于第一检验。
41.以下将结合图2描述根据本公开的实施例的用于筛选免疫组库测序生物标志物的方法。图2示出了根据本公开的实施例的用于筛选免疫组库测序生物标志物的方法200的流程图。应当理解,方法200例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
42.在步骤202处,计算设备110获取关于样本的免疫组库测序数据,以用于确定所述样本中的每一种克隆的初始绝对丰度。
43.关于免疫组库测序数据,其例如是使用illumina高通量测序平台针对上机文库分子进行双向测序而获得的关于样本的测序序列数据。
44.关于确定样本中的每一种克隆的初始绝对丰度的方法例如包括:基于经过滤的关于样本的免疫组库测序数据(例如,碱基序列数据),生成克隆,然后经由克隆的鉴定和定量,获得每一种克隆的初始绝对丰度之后,然后进行归一化,以便生成归一化(或者标准化)后的每一种克隆的初始绝对丰度。具体而言,确定样本中的每一种克隆的初始绝对丰度的方法例如包括:获取经由illumina高通量测序平台而生成的关于样本的免疫组库测序数据;过滤掉测序质量不符合预定条件的读长;在经过滤的测序数据中,针对一致性序列进行聚类;针对成对一致性序列进行组装,以便生成克隆;针对所生成的克隆进行比对,以便将相同克隆确定为同一克隆种类;计算每一种克隆种类所含有的克隆数目,以便计算样本中的每一种克隆的初始绝对丰度。
45.在一些实施例中,初始绝对丰度例如是经由归一化处理。例如,针对所计算的每一种克隆的初始绝对丰度进行归一化处理,以便得到归一化后的每一种克隆的初始绝对丰度。通过针对每一种克隆的初始绝对丰度进行归一化处理,可以使得所计算的丰度值不会因为前期提取样本rna或者制备受体库过程的差异而影响,进而避免对克隆显著性评估结果带来影响。
46.以下结合表达式(1)说明用于计算归一化后的每一种克隆的初始绝对丰度的算法。
[0047][0048]
在上述表达式(1)中,i代表样品内第i个克隆。n代表克隆种类的总数。relateab(i)代表样本内第i个克隆的归一化后的绝对丰度。ab(i)代表样本内第i个克隆的初始绝对丰度。代表样本内所有克隆的绝对丰度的总和。
[0049]
例如,样本中含有的n种不同克隆种类的克隆(clone1至clonen)。以下表1示意性示出了样品中的n个克隆的初始绝对丰度。例如,clone1的初始绝对丰度为50,clone2的初始绝对丰度为100,clone3的初始绝对丰度为150,clonen的初始绝对丰度为120。
[0050]
表1
[0051]
克隆绝对丰度clone150clone2100clone3150........clonen120
[0052]
根据上述表达式(1)可以计算clone1的归一化后的初始绝对丰度为relateab(clone1)=50/(50 100 150 ... 120)*100。
[0053]
在步骤204处,计算设备110基于所述样品内克隆基因的初始绝对丰度、所述样品内所有克隆的绝对丰度的总和,计算所述样品内克隆基因的第一相对丰度。第一相对丰度例如是经由total克隆标准化而生成。通过采用上述手段,以第一相对丰度的方式进行克隆基因的定量,考虑了克隆的绝对表达量,利于从整体考察克隆在样本中的重要性。即,计算设备110基于代表样品内某个v、d、j克隆基因的绝对丰度和所述样品内所有克隆的绝对丰度的总和而计算的。克隆基因的第一相对丰度(例如v克隆基因的第一相对丰度)的计算中,考虑了所述样品内所有克隆的表达量。
[0054]
以下结合表达式(2),以v克隆基因为例,说明计算所述样品内克隆基因的第一相对丰度的算法。
[0055][0056]
在上述表达式(2)中,j代表样品内某个v、d、j克隆基因。n代表克隆种类的总数。v(j)代表样品内某个v、d、j克隆基因的第一相对丰度。v clone(j)代表样品内某个v、d、j克隆基因的初始绝对丰度。代表样品内所有克隆的绝对丰度的总和。
[0057]
例如,clone1由trbv2、trbd2、trbj2

7组成,clone2由trbv2、trbd2、trbj2

7组成,clone3由trbv5

1、trbd2、trbj2

7组成

clonen例如由trbv7

2、rbd1 trbj1

1组成。例如,clone1

clonen的克隆基因的初始绝对丰度为50、100、0...0,则对于克隆基因trbv2的第一相对丰度v(trbv2)=(50 100 0 ... 0)/(50 100 150 ... 120)*100。
[0058]
在步骤206处,计算设备110确定克隆基因的初始绝对丰度是否大于预定阈值。在一些实施例中,预定阈值例如而不限于为0.
[0059]
在步骤208处,如果计算设备110确定克隆基因的初始绝对丰度大于预定阈值,确定克隆基因的第一绝对丰度为1。在步骤210处,如果计算设备110确定克隆基因的初始绝对丰度小于或者等于预定阈值(例如为0),确定克隆基因的第一绝对丰度为0。再例如,如果当前种类的克隆的初始绝对丰度大于零,即样本中存在该种克隆,则不管当前种类的克隆的表达量有多少,将当前种类的克隆的第一绝对丰度确定为1。
[0060]
在步骤212处,计算设备110基于所述样品内克隆基因的第一绝对丰度、所述样品
内所有克隆的第一绝对丰度的总和,计算所述样品内克隆基因的第二相对丰度。例如,计算设备110针对v、d、j克隆基因,分别生成三个第二相对丰度。
[0061]
第二相对丰度例如是经由unique克隆标准化而生成。例如,计算设备110基于代表样品内某个v、d、j克隆基因的第一绝对丰度和所述样品内所有克隆的绝对丰度的总和来计算克隆基因的第二相对丰度。
[0062]
以下结合表达式(3),以v克隆基因为例,说明用于计算样品内克隆基因的第二相对丰度的算法。
[0063][0064]
在上述表达式(3)中,k代表样品内某个种类的克隆基因,例如v、d、j基因。n代表克隆种类的总数。vu(k)代表样品内某个克隆基因的第二相对丰度。vuclone(k)代表样品内k种类克隆基因的第一绝对丰度。uclone(k)代表样品内某个克隆的第一绝对丰度。代表所述样品内所有克隆的第一绝对丰度的总和。
[0065]
例如,如前文描述,clone1由trbv2、trbd2、trbj2

7组成,clone2由trbv2、trbd2、trbj2

7组成,clone3由trbv5

1、trbd2、trbj2

7组成

clonen例如由trbv7

2、rbd1 trbj1

1组成。例如,clone1

clonen的克隆基因的初始绝对丰度为50、100、0...0,则样品内克隆基因trbv2的第一绝对丰度分别为1、1、0...0。所述样品内所有克隆的第一绝对丰度例如分别为1、1、1...1。则克隆基因trbv2的第二相对丰度vu(trbv2)=(1 1 0 ... 0)/(1 1 1 ... 1)*100。
[0066]
在步骤212处,计算设备110基于克隆基因的第一相对丰度和第二相对丰度,确定候选克隆基因。
[0067]
关于候选克隆基因的确定方法,其例如包括:针对克隆基因的第一相对丰度进行排序,以便将排序顺序小于第一预定顺序阈值的多个克隆基因确定为第一候选克隆基因;针对克隆基因的第二相对丰度进行排序,以便将排序顺序小于第二预定顺序阈值的多个克隆基因确定为第二候选克隆基因;以及基于第一候选克隆基因和第二候选克隆基因的交集或者并集,确定候选克隆基因。第一预定顺序阈值和第二预定顺序阈值可以相同,也可以不同。例如,将第一相对丰度和第二相对丰度排序前20的克隆筛选出作为候选克隆基因。
[0068]
应当理解,第一相对丰度由于是基于样本中的克隆基因的初始绝对丰度和所有克隆的绝对丰度而计算的,因此,第一相对丰度考虑了所述样品内所有克隆的表达量,因此利于体现克隆的整体影响。第二相对丰度例如是基于克隆基因第一绝对丰度(取值为“0”或者“1”)和所有克隆的第一绝对丰度的总和而确定的,因此,第二相对丰度未考虑同一种类型克隆的表达量,而是考虑克隆种类的整体影响。因此,本公开通过基于侧重克隆整体影响的第一相对丰度和侧重克隆种类影响的第二相对丰度来确定免疫组库测序生物标志物,利于更为准确和可靠地确定优势克隆。
[0069]
在步骤214处,计算设备110针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物,所述第二检验不同于第一检验。
[0070]
关于基于校验结果数据确定免疫组库测序生物标志物的方法,其例如包括:针对候选克隆基因的第一相对丰度分别进行第一检验和第二检验,以便分别生成第一校验结果
数据和第二校验结果数据;针对候选克隆基因的第二相对丰度分别进行第一检验和第二检验,以便生成第三校验结果数据和第四校验结果数据;以及基于第一校验结果数据、第二校验结果数据、第三校验结果数据和第四校验结果数据,在候选克隆基因中确定免疫组库测序生物标志物。关于生成校验结果数据的方法,本公开将结合图3加以说明,在此,不在赘述。
[0071]
关于第一检验,在一些实施例中,其例如为不降维的秩和检验。通过以秩和检验(rank sum test)为第一检验,使得本公开校验结果不依赖于总体分布的具体形式。应当理解,由于候选克隆基因的数据类型不符合正态分布,因此,相对于采用t检验而言,秩和检验更适合于候选克隆基因的显著性差异分析。在一些实施例中,所述第一检验例如为wilcoxon检验,通过采用wilcoxon秩和检验这种方法进行第一校验,能够使得校验结果考虑差异的方向和差异的大小,因此使得校验更为有效。
[0072]
关于第二检验,其例如为方差分析检验或者是pca降维单因素检验。所述第二检验例如而不限于为anova检验。应当理解,第一检验和第二校验也可以是其他合适的校验方式。
[0073]
关于在所述样品内的克隆基因中确定免疫组库测序生物标志物的方法,其例如包括:基于第一校验结果数据和第一阈值的比较,确定关于候选克隆基因的第一显著性差异数据;基于第二校验结果数据和第二阈值的比较,确定关于候选克隆基因的第二显著性差异数据;基于第三校验结果数据和第三阈值的比较,确定关于候选克隆基因的第三显著性差异数据;基于第四校验结果数据和第四阈值的比较,确定关于候选克隆基因的第四显著性差异数据;以及基于第一显著性差异数据、第二显著性差异数据、第三显著性差异数据和第四显著性差异数据,在候选克隆基因中确定免疫组库测序生物标志物。
[0074]
以下结合图5至图8说明本公开筛选免疫组库测序生物标志物的方法的效果。图5示出了根据本公开的实施例的经由针对候选克隆基因的第一相对丰度进行第一检验而生成的第一校验结果数据的示意图。图6示出了根据本公开的实施例的经由针对候选克隆基因的第一相对丰度进行第二检验而生成的第二校验结果数据的示意图。图7示出了根据本公开的实施例的经由针对候选克隆基因的第二相对丰度进行第一检验而生成的第三校验结果数据的示意图。图8示出了根据本公开的实施例的经由针对候选克隆基因的第二相对丰度进行第二检验而生成的第四校验结果数据的示意图。
[0075]
图5至图8所示的四种校验结果数据表明,trbv20家族在患者中都显著的上调,克隆基因trbv13的第一相对丰度在第一校验(例如wilcoxon校验)和第二校验(例如anova检验)里显著下调,克隆基因trbv2的第二相对丰度在第一校验(例如wilcoxon校验)和第二校验(例如anova检验)里显著下调,因此trbv20,trbv13,trbv2可以作为该疾病的生物标志。通过基于第一相对丰度和第二相对丰度的两种定量方法,分别从克隆总量和克隆种类上进行考量,确定trbv20,trbv13,trbv2为免疫组库的生物标志物,避免了只从克隆表达量的角度出发只得到trbv13作为生物标志物。
[0076]
在上述方案中,通过经由所获取的免疫组库测序数据确定所述样本中的每一种克隆的初始绝对丰度;然后基于克隆基因的初始绝对丰度和所述样品内所有克隆的绝对丰度的总和来计算所述样品内克隆基因的第一相对丰度。本公开可以通过第一相对丰度在克隆基因的定量上考虑了克隆的绝对丰度,即从整体考察克隆在样本中的重要性。另外,本公开
通过在确定克隆的初始绝对丰度大于预定阈值时,确定所述样品克隆基因的第一绝对丰度为1;以及基于克隆基因的第一绝对丰度和所述样品内所有克隆的第一绝对丰度的总和,计算所述样品内克隆基因的第二相对丰度。本公开可以通过第二相对丰度在克隆基因的定量上不考虑克隆的绝对丰度,也即对应克隆的v(d)j基因分别计为1,依此对克隆基因进行定量,进而能够从克隆的种类方面考察克隆在样本中的重要性。再者,本公开通过基于第一相对丰度和第二相对丰度,确定候选优势克隆;以及针对候选克隆基因进行第一检验和第二检验,以便基于校验结果数据确定免疫组库测序生物标志物,所述第二检验不同于第一检验,本公开能够通过两种定量方法同时从克隆的整体表达量和克隆种类两方面考察克隆的重要性,而且经由不同的两种校验,使得最终筛选出有显著差异的克隆作为免疫组库的生物标志物,因而本公开能够显著提高所筛选出的免疫组库的生物标志物的可靠性。
[0077]
图3示出了根据本公开的实施例的用于生成校验结果数据的方法300的流程图。应当理解,方法300例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0078]
在步骤302处,计算设备110针对候选克隆基因的第一相对丰度分别进行第一检验和第二检验,以便分别生成第一校验结果数据和第二校验结果数据。
[0079]
以下结合表达式(4)说明针对克隆基因的第一相对丰度进行第一检验(例如,wilcoxon检验),以生成第一校验结果数据(例如,wilcoxon检验结果数据)。
[0080][0081]
在上述表达式(4)中,z1代表wilcoxon检验结果数据。wx代表第一组(例如为case组)某一克隆基因的秩和。n1代表第一组的样本数目。n2代表第二组(例如为control组)的样本数目。
±
0.5中的加0.5或减0.5代表对离散变量进行修正,其中,对于wx

μ大于0,减0.5修正,对于wx

μ小于或者等于0,则加0.5修正。t代表出现相同丰度的样本个数。
[0082]
以下表2示出了第一组和第二组中不同样品中克隆基因trbv13的第一相对丰度的秩和统计数据。
[0083]
表2
[0084][0085][0086]
在上述表2中,wx1代表第一组16个样本的trbv13基因的秩和,wx1=286。wx2代表第一组11个样本的trbv13基因的秩和,wx2=92。第一组的样本数目n1为16。第二组的样本数目n2为11。秩和检验中的对应每一样本的秩的确定方式为:通过将所有样本的trbv13的第一相对丰度值按照从小到大的次序排列,每一trbv13的第一相对丰度按照次序编号,该次序编号即为秩(或秩次)。第一组和第二组未出现相同丰度,即t为0。
[0087]
以下结合表达式(5)示例第一组的wilcoxon检验结果数据z1的计算方式。
[0088][0089]
根据前文表达式(5)可知,针对克隆基因trbv13的第一相对丰度进行wilcoxon检验的wilcoxon检验结果数据z1=3.034(即第一检验结果数据为3.034)。
[0090]
以下结合表达式(6)说明关于针对克隆基因的第一相对丰度进行第二检验(例如,
anova检验),以生成第二校验结果数据(例如,anova检验结果数据)。
[0091][0092]
在上述表达式(6)中,f1代表anova检验结果数据,即第二校验结果数据。“ms组间”代表组间变异均方。“ms组”内代表组内变异均方。k代表有k个组。ni代表表示第i组的样品数目。a代表分组数量与k相等。代表第i组克隆基因的相对丰度均值。代表总体中某克隆基因的相对丰度均值。xij代表第i组中第j个样品某个克隆基因的第一相对丰度。n代表为总样品数。
[0093]
以下表3示出了第一组和第二组中不同样品中克隆基因trbv13的第一相对丰度表达量均值统计。
[0094]
表3
[0095][0096]
根据表3可知,第一组内克隆基因trbv13的相对丰度均值为4.9539。第二组克隆基因trbv13的相对丰度均值为1.9928。代表总体中某克隆基因的相对丰度均值。总体中某克隆基因的相对丰度均值
[0097]
以下结合表达式(7)示例第一组的anova检验结果数据f1的计算方式。
[0098][0099]
根据前文表达式(7)可知,针对克隆基因trbv13的第一相对丰度进行anova检验的anova检验结果数据f1=11.070(即,第二检验结果数据f2为11.070)。
[0100]
在步骤304处,计算设备110针对候选克隆基因的第二相对丰度分别进行第一检验和第二检验,以便生成第三校验结果数据和第四校验结果数据。
[0101]
以下结合表达式(8),以克隆基因trbv13为例,说明关于针对克隆基因的第二相对丰度进行第一检验(例如,wilcoxon检验),以便生成第三校验结果数据的方法。
[0102][0103]
在上述表达式(8)中,z2代表针对克隆基因trbv13的第二相对丰度进行第一校验(例如wilcoxon检验)的第三校验结果数据。wx代表第一组某一克隆基因的秩和。n1代表第一组的样本数目。n2代表第二组的样本数目。
±
0.5中的加0.5或减0.5代表对离散变量进行修正,其中,对于wx

μ大于0,减0.5修正,对于wx

μ小于或者等于0,则加0.5修正。t代表出现相同丰度的样本个数。
[0104]
表4
[0105]
[0106][0107]
在上述表4中,wx1代表第一组16个样本的trbv13基因的秩和,wx1=241。wx2代表第二组11个样本的trbv13基因的秩和,wx2=137。第一组的样本数目n1为16。第二组的样本数目n2为11。第一组和第二组未出现相同丰度,即t为0。
[0108]
以下结合表达式(9),以克隆基因trbv13为例,示例针对克隆基因的第二相对丰度进行wilcoxon检验所生成wilcoxon检验结果数据z2的计算方式。
[0109][0110]
根据前文表达式(9)可知,针对克隆基因trbv13的第二相对丰度进行wilcoxon检验的wilcoxon检验结果数据z2=0.814(即,第三检验结果数据f2为0.814)。
[0111]
以下结合表达式(10),以克隆基因trbv13为例,说明关于针对克隆基因的第二相对丰度进行第二检验(例如,anova检验),以便生成第四校验结果数据的方法。
[0112][0113]
在上述表达式(10)中,f2代表anova校验结果数据,即第四检验结果数据。“ms组
间”代表组间变异均方。“ms组”内代表组内变异均方。k代表有k个组。ni代表表示第i组的样品数目。a代表分组数量与k相等。代表第i组克隆基因的相对丰度均值。代表总体中某克隆基因的相对丰度均值。xij代表第i组中第j个样品某个克隆基因的第二相对丰度。n代表为总样品数。
[0114]
以下表5示出了第一组和第二组中不同样品中克隆基因trbv13的第二相对丰度表达量均值统计。
[0115]
表5
[0116][0117][0118]
根据表5可知,第一组内克隆基因trbv13的相对丰度均值为1.1040。第二组克隆基因trbv13的相对丰度均值为0.9952。代表总体中某克隆基因的相对丰度均值。总体
中某克隆基因的相对丰度均值
[0119]
以下结合表达式(11)示例针对克隆基因trbv13的第二相对丰度进行anova检验而生成的anova检验结果数据f2的计算方式。
[0120][0121]
根据前文表达式(11)可知,针对克隆基因trbv13的第二相对丰度进行anova检验而生成的anova检验结果数据f2=0.360(即,第四检验结果数据f2为0.360)。
[0122]
在步骤306处,计算设备110基于第一校验结果数据、第二校验结果数据、第三校验结果数据和第四校验结果数据,在候选克隆基因中确定免疫组库测序生物标志物。
[0123]
关于基于校验结果数据筛选免疫组库测序生物标志物的方法,其例如包括:基于第一校验结果数据和第一阈值的比较,确定关于候选克隆基因的第一显著性差异数据;基于第二校验结果数据和第二阈值的比较,确定关于候选克隆基因的第二显著性差异数据;基于第三校验结果数据和第三阈值的比较,确定关于候选克隆基因的第三显著性差异数据;基于第四校验结果数据和第四阈值的比较,确定关于候选克隆基因的第四显著性差异数据;以及基于第一显著性差异数据、第二显著性差异数据、第三显著性差异数据和第四显著性差异数据,在候选克隆基因中确定免疫组库测序生物标志物。下文将结合图4详细说明用于基于校验结果数据筛选免疫组库测序生物标志物的方法。
[0124]
图4示出了根据本公开的实施例的用于基于校验结果数据筛选免疫组库测序生物标志物的方法400的流程图。应当理解,方法400例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0125]
在步骤402处,计算设备110基于第一校验结果数据和第一阈值的比较,确定关于候选克隆基因的第一显著性差异数据。
[0126]
例如,针对候选克隆基因trbv13而言,根据前文表达式(5)可知,第一检验结果数据z1=3.034。设定显著水平为a=0.05,标准正态分布在0.05显著水平时,第一阈值(例如上临界值)为1.645,由于3.034>1.645,即第一检验结果数据大于第一阈值,满足对应显著性预定条件,拒绝零假设。因此,第一显著性差异数据指示:第一组与第二组中的候选克隆基因trbv13的第一相对丰度的表达差异达到显著水平。
[0127]
在步骤404处,计算设备110基于第二校验结果数据和第二阈值的比较,确定关于候选克隆基因的第二显著性差异数据。
[0128]
根据表达式(7)可知,第二检验结果数据f1为11.070。设定显著水平为a=0.05,标准正态分布在0.05显著水平时,第二阈值f0.05(1,15)例如为4.543。由于第二检验结果数据f1>f0.05,p<0.05,拒绝零假设,即第二检验结果数据大于第二阈值,满足对应显著性预定条件。因此,第二显著性差异数据指示:经由第二检验(例如anova检验),第一组与第二组中的trbv13第一相对丰度的表达差异达到显著水平。
[0129]
在步骤406处,计算设备110基于第三校验结果数据和第三阈值的比较,确定关于候选克隆基因的第三显著性差异数据。
[0130]
根据表达式(9)可知,第三校验结果数据z2=0.814。设定显著水平为a=0.05,标准正态分布在0.05显著水平时,第三阈值(例如上临界值)为1.645,由于第三校验结果数据z2<1.645,即第三校验结果数据小于第三阈值,不满足对应显著性预定条件。不能拒绝零假设,即第一组与第二组中的trbv13第二相对丰度的表达差异不显著。因此,第三显著性差异数据指示:经由第一检验(例如wilcoxon检验),第一组与第二组中的trbv13第二相对丰度的表达差异不显著。
[0131]
在步骤408处,计算设备110基于第四校验结果数据和第四阈值的比较,确定关于候选克隆基因的第四显著性差异数据。
[0132]
例如,根据表达式(11)可知,第四检验结果数据f2为0.360。设定显著水平为a=0.05,标准正态分布在0.05显著水平时,第四阈值f0.05(1,15)例如为4.543。由于第四检验结果数据f2<4.543,p<0.05,,不能拒绝零假设,即第四检验结果数据f2小于第四阈值,不满足对应显著性预定条件。因此,第四显著性差异数据指示:经由第二校验(例如anova检验),第一组与第二组中的trbv13第二相对丰度的表达差异不显著。
[0133]
在步骤410处,计算设备110基于第一显著性差异数据、第二显著性差异数据、第三显著性差异数据和第四显著性差异数据,在候选克隆基因中确定免疫组库测序生物标志物。
[0134]
例如,根据第一显著性差异数据和第二显著性差异数据,trbv13的第一相对丰度在第一校验(例如wilcoxon校验)和第二校验(例如anova检验)里存在显著性差异。根据第三显著性差异数据和第四显著性差异数据,trbv13的第二相对丰度在第一校验(例如wilcoxon校验)和第二校验(例如anova检验)里的差异不显著。通过基于第一相对丰度和第二相对丰度的两种定量方法,分别从克隆总量和克隆种类上进行考量,确定trbv13为免疫组库的生物标志物,避免了只从克隆种类的角度出发漏掉trbv13作为生物标志物。在上述方案中,本公开通过将第一相对丰度第二相对丰度两种定量方法,结合wilcoxon和anova检验,能够实现准确筛选免疫组库的生物标志物。
[0135]
图9示意性示出了适于用来实现本公开实施例的电子设备900的框图。设备900可以是用于实现执行图2、图3和图4所示的方法200、300和400的设备。如图7所示,设备900包括中央处理单元(cpu)901,其可以根据存储在只读存储器(rom)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可存储设备900操作所需的各种程序和数据。cpu、rom以及ram通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0136]
设备900中的多个部件连接至i/o接口905,包括:输入单元906、输出单元907、存储单元908,中央处理单元901执行上文所描述的各个方法和处理,例如执行方法200、300和400。例如,在一些实施例中,方法200、300和400可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法200、300和400的一个或多个操作。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、300和400的一个或多个动作。
[0137]
需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算
机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
[0138]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd

rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0139]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0140]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如smalltalk、c 等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0141]
这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0142]
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图
和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0143]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0144]
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0145]
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
[0146]
以上该仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
转载请注明原文地址:https://doc.8miu.com/read-1450093.html

最新回复(0)