本发明属于生物信息,具体涉及一种高置信的肠道菌群单氨基酸突变鉴定方法及其应用。
背景技术:
1、单氨基酸多态性(single amino-acid polymorphisms,saps)是指在蛋白质特定位点发生的单个氨基酸突变,衍生自非同义单核苷酸多态性(non-synonymous singlenucleotide polymorphisms,snps)。snps主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性,可能导致基因发挥完全不同的功能,在人类的可遗传变异中占90%以上。但基因组数据只能显示基因功能的潜能,并不能完全反映基因表达,因此对于saps的研究是更为直观反映功能变化的。
2、saps可能导致蛋白质功能变化从而影响机体的生物适应性,然而,由于搜索空间的极度增长、肠道微生物序列的高度相似性、宿主蛋白以及食物蛋白的干扰以及突变位点定位的准确性有限,在复杂肠道宏蛋白组中进行深度突变分析非常困难。开发一种能够准确鉴定位点水平的突变肽段的鉴定方法,是目前亟待解决的问题。
技术实现思路
1、本发明旨在至少解决上述现有技术中存在的技术问题之一。为此,本发明提出一种高置信的肠道菌群单氨基酸突变鉴定方法,能够准确鉴定突变肽段并精确到位点水平,进一步用于评估肠道菌群的复杂saps模式。
2、本发明还提出上述鉴定方法的应用。
3、根据本发明的第一方面,提出了一种高置信的肠道菌群单氨基酸突变鉴定方法,包括以下步骤:
4、s1:构建综合参考数据库;
5、s2:获取肠道菌群的高分辨ms/ms数据集;
6、s3:将步骤s2所述高分辨ms/ms数据集比对到步骤s1所述综合参考数据库中鉴定得到单氨基酸突变。
7、在本发明的一些实施方式中,步骤s2所述高分辨ms/ms数据集包括在蛋白质鉴定数据库(proteomics identification database,pride)中下载的以下编号的数据集:pxd007819、pxd008675、pxd008870、pxd003791、pxd011515、pxd003907、pxd005780。
8、在本发明的一些实施方式中,步骤s1所述综合参考数据库包括菌群蛋白数据库、人类蛋白数据库、常见食物蛋白数据库。
9、在本发明的一些优选的实施方式中,所述菌群蛋白数据库包括依赖培养和不依赖培养的数据库。
10、在本发明的一些更优选的实施方式中,所述菌群蛋白数据库包括以下1)~7)中的至少一种:
11、1)ncbi refseq(release 90)和uniprotkb(release 2017_06)中完整的古细菌、细菌、病毒、原生动物和真菌序列;
12、2)综合基因目录(the integrated gene catalog,igc)中来自1070个个体(760个欧洲人、368个中国人和139个美国人的样本)的1267个肠道宏基因组数据;
13、3)可培养基因组参考(the culturable genome reference,cgr)中由人类粪便培养的6000多个细菌产生的1520个非冗余、高质量的草稿基因组;
14、4)由人类粪便培养的215个细菌隔离群的序列数据;
15、5)利用prodigal v2.6.3预测和翻译综合微生物基因组与微生物组样品(theintegrated microbial genomes with microbiome samples,img/m)中3042个宏基因组中的病毒序列;
16、6)64个个体的人类肠道噬菌体目录;
17、7)the phantome数据库。
18、在本发明的一些优选的实施方式中,所述人类蛋白数据库包括编码序列和非编码序列。
19、在本发明的一些更优选的实施方式中,所述人类蛋白数据库包括:
20、1)uniprot和ncbi人类参考蛋白组(下载于2017年);
21、2)三帧翻译(maxquant v1.5.2.8)非编码基因序列,包括来自ncbi和gerstein假基因数据库v83的假基因序列、ncbi refseq的mrna、noncode v5.0和ncbi的非编码rnas、gencode v2956的lncrnas、lncipedia.org v5.257和utrdbx2的5'未翻译区域序列;
22、3)来自swiss-cansaavs(on 04/11/2018)、canprovar 2.058和cosmic v8759的nssnps和体细胞突变;
23、4)imgt/hla数据库的hla序列。
24、在本发明的一些优选的实施方式中,所述常见食物蛋白数据库包括:bos taurus(牛);gallus gallus(鸡);sus scrofa(猪);ovis aries(羊);gadus morhua,merlucciusbilinearis,merluccius capensis,merluccius polli,oncorhynchus mykiss,pennahiaargentata,paranotothenia magellanica,salmo salar,sparus aurata,soleasenegalensis,thunnus thynnu and thunnus orientalis(鱼);artemia sp.,litopenaeus vannamei,and marsupenaeus japonicus(虾);glycine max(大豆);triticum aestivum(小麦);oryza sativa subsp.japonica(水稻);zea mays(玉米);arachis hypogaea(花生);solanum tuberosum(马铃薯);solanum lycopersicum(番茄);malus domestica(苹果);musa acuminata subsp.malaccensis(野生香蕉)的有机物序列。
25、在本发明的一些实施方式中,所述步骤s3前还包括使用从头测序将综合参考数据库中相较于肠道菌群的高分辨ms/ms数据集蛋白序列缺失的肽注释为仅通过从头测序鉴定的肽的步骤。
26、在本发明的一些实施方式中,步骤s3所述检测单氨基酸突变使用的软件包括:peaks x和proteinpilot 5.0.1。
27、在本发明的一些优选的实施方式中,所述使用peaks x检测单氨基酸突变的步骤包括用搜索引擎peaksdb结合peaks从头测序、peaks ptm、spider来进行。
28、在本发明的一些优选的实施方式中,所述检测单氨基酸突变时peaks x设定的参数包括:前体质量公差设定为10ppm,碎片质量公差为0.02da;酶设置为胰酶,消化模式为semi特定,最大混合片段为三个;固定修饰为半胱氨酸烷基化(carbamidomethylation ofcys);每个肽段最多允许3个可变修饰,包括蛋白n端乙酰化(n-terminus acetylation)、甲硫氨酸氧化(met oxidation)、天冬酰胺和谷氨酰胺脱酰胺基(asn and glndeamidation)以及谷氨酰胺形成焦谷氨酸(pyro-glu from gln);用基于target-decoy fusion策略得到的peptide-to-spectrum(psm)经1%的错误发现率(false discovery rates,fdr)筛选出结果,de novo alc(%)阈值为50。
29、在本发明的一些优选的实施方式中,所述检测单氨基酸突变时proteinpilot5.0.1设定的参数包括:样本类型:鉴定;半胱氨酸烷化(cys alkylation):碘乙酰胺(iodoacetamide);设备:orbi ms(sub-ppm)和orbi ms/ms;消化:胰酶;蛋白检测阈值:10%conf;选择详细id搜索,自动搜索缺失片段(最大为5)、semi特定和非特定片段;id主要关注生物修饰和氨基酸取代,允许同时搜索1052个修饰和取代(63个workup修饰,337个生物修饰,228个定量相关修饰和460个取代);计算基于target-decoy fusion策略的fdr,只保留5%local fdr的特异性肽段做进一步分析。
30、在本发明的一些优选的实施方式中,所述检测单氨基酸突变包括使用peaks x和proteinpilot5.0.1以相同搜索参数搜索两轮。
31、在本发明的一些实施方式中,步骤s3所述筛选采用的算法包括:spider、paragon。
32、在本发明的一些优选的实施方式中,所述筛选的条件包括:spider设定全局错误发现率为1%,paragon算法设定局部错误发现率为5%,spider设定突变离子强度阈值为5%。
33、根据本发明的第二方面,提供了上述鉴定方法在(1)-(4)任一项中的应用。
34、(1)鉴定肠道菌群单氨基酸突变;
35、(2)鉴定肠道菌群的单氨基酸多态性的模式变化;
36、(3)鉴定肠道菌群单氨基酸多态性的分布特征;
37、(4)探究肠道中潜在的宿主-微生物相互作用。
38、在本发明的一些实施方式中,所述肠道菌群的单氨基酸多态性的模式变化为在鉴定不同生理病态下肠道菌群的单氨基酸多态性的模式变化。
39、在本发明的一些实施方式中,所述不同生理病理状态包括:正常生理状态、炎症性肠病状态、ⅰ型糖尿病状态。
40、在本发明的一些实施方式中,所述肠道菌群包括:拟杆菌门、厚壁菌门、变形菌门、放线菌门的肠道菌群。
41、本发明至少具有以下有益效果:
42、本发明提供了一种高置信的肠道菌群单氨基酸突变鉴定方法,该方法能够准确鉴定到位点水平的突变肽段,从而有效区分邻近位点的同一对氨基酸取代。本发明将这种鉴定方法应用到已有的宏蛋白组样本进行分析,发现了不同种类肠道菌群的生物过程中存在多种多样的saps模型,提供了分类和蛋白质丰度之外的另一层信息。本发明提供的鉴定方法还能够应用于肠道中潜在的宿主-微生物相互作用的研究,为发掘肠道微生物的调控策略和代谢重组提供新的线索,为后续机制研究提供假设。
1.一种高置信的肠道菌群单氨基酸突变鉴定方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的鉴定方法,其特征在于,步骤s1所述综合参考数据库包括菌群蛋白数据库、人类蛋白数据库、常见食物蛋白数据库。
3.根据权利要求2所述的鉴定方法,其特征在于,所述菌群蛋白数据库包括依赖培养和不依赖培养的数据库;和/或,所述人类蛋白数据库包括编码序列和非编码序列。
4.根据权利要求1所述的鉴定方法,其特征在于,所述步骤s3前还包括使用从头测序将数据库中缺失的肽注释为仅通过从头测序鉴定的肽的步骤。
5.根据权利要求1所述的鉴定方法,其特征在于,步骤s3所述鉴定单氨基酸突变使用的软件包括:peaks x和proteinpilot 5.0.1。
6.根据权利要求5所述的鉴定方法,其特征在于,所述使用peaks x鉴定单氨基酸突变的步骤包括用搜索引擎peaksdb结合peaks从头测序、peaks ptm、spider来进行。
7.根据权利要求1所述的鉴定方法,其特征在于,步骤s3所述鉴定采用的算法包括:spider、paragon。
8.根据权利要求7所述的鉴定方法,其特征在于,所述鉴定的条件包括:spider设定全局错误发现率为1%,paragon算法设定局部错误发现率为5%,spider设定突变离子强度阈值为5%。
9.根据权利要求7-8任一项所述的鉴定方法,其特征在于,所述鉴定包括以相同算法和参数对数据库进行两轮搜索。
10.如权利要求1-9任一项所述的高置信的肠道菌群单氨基酸突变鉴定方法在(1)-(4)任一项中的应用:
