本发明涉及深度学习和谱系溯源,特别涉及一种利用全基因组重测序单核苷酸多态性(single nucleotide polymorphism,snp)数据和深度学习算法进行谱系溯源的方法。
背景技术:
1、谱系溯源是一种应用于不同领域的技术,已经得到了广泛的应用和发展。最初,谱系溯源主要用于追溯人类的族谱和家族血统,帮助人们了解自己的家族历史和身份。然而,随着科技的进步和应用技术的改变,谱系溯源的应用范围也不断扩展到其他领域。农产品溯源是谱系溯源的一项重要应用。通过利用谱系溯源技术,道地农产品或重要地方野生中药材都可以被追溯到源头,以确保产品的来源和真实性。在农产品和中药材的销售和流通过程中,极有可能会引入假冒伪劣产品,严重影响消费者的权益和健康。通过追溯流通环节,可以确认产品的真实来源,减少假冒伪劣产品的流通,这样一来,消费者可以更加放心地购买农产品,同时也有助于监管部门追踪和防止农产品的质量问题和食品安全问题。野生动物和家养动物谱系的溯源也是另一个重要的应用领域。通过对动物的基因和遗传特征进行谱系追踪,可以了解动物的血统、种类和来源地理亚群等背景信息。这对于野生动物保护和物种繁育有着重要的意义,有助于保护濒危物种和遗传多样性。例如,区分人工养殖和野生中华鲟谱系在进行野生动物遗传多样性保护的同时,可以在政府有序管控情况下让人工养殖种群流入市场,可以有效减少野生种群盗猎等情况的发生,而且也让地方餐馆能够拥有当地特色菜,带动地方经济;利用蜂蜜中的花粉特征进行追溯蜜源地的方法,地方蜂蜜产品,尤其是在自然生态保护区收集的蜂蜜产品在市场中被标定为高端蜂蜜,因此准确确定其蜜源地来源是至关重要的。此外,区分不同来源的野生地方种群,对于进行遗传研究、维持生物多样性以及遗传多样性并进行地方特色种质资源保护和保育地方特有种工作等是至关重要的。以测试数据集中的东方蜜蜂为例,东方蜜蜂是我国独有的土生土长的蜜蜂,适应性强,抗寒抗敌害能力远远超过西方蜜蜂。东方蜜蜂在维持我国本土生态平衡,保障粮油安全功不可没,东方蜜蜂的活体保种保护、良种扩繁与选育等的前提是准确的谱系溯源。病虫害溯源通过研究病虫害的传播途径和扩散情况,可以找出病害源头,采取相应的措施进行防治。谱系溯源可以帮助识别和追踪病害的来源和传播路径,提供有效的应对策略,减少病虫害对人、家畜以及农作物的损害。综上所述,谱系溯源的应用已经逐渐扩展到农产品溯源、野生动物和家养动物谱系的溯源,以及病虫害溯源等多个领域。
2、全基因组的核酸物质(dna)分子特征为我们提供了一种谱系溯源的方法:不同地区由于基因流动受限,而来自同一地区或者地理距离较近地区的基因流动更加频繁。因此理论上同一地区的种群应该具有相似的dna序列,而与地理距离较远的种群或群体相比,其dna分子序列组成应该具有较大的区别,不同种群之间即可根据单核苷酸多态性进行区分。因此,利用不同地理区域全基因上的差异序列位点即可进行样本之间的比较,理论上就可以确定其谱系上的差异。
3、然而,准确追踪待测样本的谱系是一件很难的事情。传统的谱系溯源方法,也被称之为系统发育方法,通过构建待测样本和已知样本之间系统发育关系的系谱树进行谱系追踪和溯源。这种方法在每检测一个样本时候都需要重新构建整个进化树,需要消耗大量的算力,和当前的节能减排目标相悖,并且需要专业的知识储备根据进化树推断当前样本所属类群,无法做到完全的批量自动化。除了上述的基于进化树进行谱系溯源分析,有一些研究利用机器学习和短基因片段进行蜂蜜产地的溯源,这些研究利用花粉中的dna的序列特征分析蜂蜜中的开花植物组成,进而根据不同地理区域开花植物的区别进行蜂蜜的溯源,但是这种方法的模型较为简单,无法有效地提取全基因组大数据,而且仅在短片段上进行测试并未拓展到全基因组大数据上。
技术实现思路
1、针对上述进化树方法每次问询都需要消耗大量算力以及简单机器学习算法或浅层神经网络算法无法充分挖掘和利用全基因组大数据的问题,本发明提供一种基于深度学习构建全基因组单核苷酸多态性(snp)与不同地理种群或亚群体之间联系的方法,以实现对待测生物样品进行谱系溯源的目的。通过本发明的方法,能够推断和识别个体之间的谱系关系,揭示它们的遗传起源和演化历程,具有高度的准确性和可靠性,能够为研究人员和科学家提供重要的遗传信息,同时也有助于在农业、生物医学和生态学等领域中进行谱系相关的研究,推动谱系溯源技术的发展与应用。
2、为实现上述技术目的,本发明采用如下技术方案:
3、一种基于全基因组重测序snp数据和深度学习的谱系溯源方法,可用于农产品、野生动物、家养动物以及病虫害的谱系溯源,包括以下步骤:
4、1)收集已知地理种群或亚群体来源的生物样本,对样本进行全基因组重测序得到单核苷酸多态性变异结果,用于构建不同地理种群或亚群体样本的参考数据库;
5、2)将不同地理种群或亚群体来源样本的单核苷酸多态性数据(snp的vcf数据)转换为dna fasta格式序列文件,并基于独热编码(one-hot encoding)方式映射为特征数值矩阵;
6、3)对采集自不同地理种群或亚群体的样本进行地理位置概率赋值,样本根据其来源不同得到不同地理位置的概率值,每个样本在其来源的地理种群或亚群体的概率值为100%,其他地理种群或亚群体来源概率值为0%,从而得到概率值标签矩阵;
7、4)将步骤2)编码得到的特征数值矩阵和步骤3)得到的概率值标签矩阵用于本发明所开发的深度学习神经网络模型训练,其中,步骤2)的特征数值矩阵作为神经网络的输入层用于特征学习和提取;步骤3)的概率值标签矩阵为神经网络提供学习目标,使得网络能够根据期望的输出进行自我调整和优化,通过学习这些标签,神经网络能够建立输入与输出之间的映射关系;
8、5)输入待测样本的特征数值矩阵,经过步骤4)训练的基于深度学习的神经网络模型,输出待测样本所属地理种群或亚群体的谱系。
9、具体的,上述步骤1)包括:
10、1.1)收集已知地理种群或亚群体来源的生物样本用于构建参考数据库,每个地理种群或亚群体来源最好包括多个样本以充分代表该地理种群或亚群体的遗传多样性和异质性。同时在新鲜样本中,内源性核酸酶对核酸物质(dna)的影响相对较小,得到的dna质量相对更好,因此应当优先保障收集已知地理种群或亚群体来源的新鲜活体样本。一般dna上机测序对dna的片段长度有要求,因此样品保存过程中要尽量避免dna断裂和降解,要确保dna的完整性,需要将所采集的样本立即保存在含酒精的容器中,为后续实验顺利进行做好保障。同时为了保证dna的完整性,建议将其分装保存,避免反复冻融。而后在实验室内使用试剂盒或酚氯仿抽提法对全基因组dna进行分离和提取。
11、1.2)将提取的全基因组dna进行测序。当前,核酸测序普遍采用第二代测序技术,即边合成边测序。在合成过程中,随着合成链的延长,dna聚合酶的效率会逐渐下降,特异性也开始变差。这会导致一个问题:随着链的延长,碱基合成的错误率也会逐渐增高。此外,有时测序仪在合成反应初期可能由于反应不够稳定,同样会导致质量值的波动。因此需要进行原始下机测序数据常规流程的质量控制和过滤,其中包括使用fastqc软件评估低质量序列和使用trimmomatic软件进行测序接头序列的去除。
12、1.3)将所有质量控制和过滤之后的测序短读长(reads)序列比对回参考基因组以获得序列的变异信息。
13、1.4)将步骤1.3)比对得到的sam文件转换为bam文件并进行排序,随后执行pcr重复标记,对碱基质量分数进行重新校准。
14、1.5)对步骤1.4)转换格式和标记后的文件利用gatk4软件进行变异检测,得到单核苷酸多态性变异结果vcf文件。
15、1.6)对步骤1.5)中得到的全基因组重测序单核苷酸多态性变异结果进行qualbydepth(qd)大于2、fisherstrand(fs)大于60、rmsmappingquality(mq)大于40、strandoddsratio(sor)大于3、次要等位基因计数大于3等质量控制和过滤。
16、在具体实施时,上述步骤1.1)中应尽量保证采集的样本来自同一地理种群不同的族群来源和采样地点,并且在样本选取中保证来源地的准确性和可追溯性,可以保证完整和准确地覆盖当地的地理种群。
17、上述步骤1.3)中使用bwa mem算法进行测序读长比对参考基因组操作并利用bwa建立参考序列索引,使用samtools工具对比对结果进行排序操作。同时为了提高gatk的索引效率,使用samtools为参考序列创建索引。
18、上述步骤1.4)中使用samtools软件将sam文件转换为bam文件,而后使用picard软件中的sortsam工具对bam文件进行排序操作。使用gatk软件中的markduplicates算法标记文库中的重复,使用gatk中的baserecalibrator方法建立校正模型,而后通过applybqsr算法对质量值进行校准。
19、上述步骤1.5)中利用gatk对snp和indel位点进行过滤,使用variantrecalibrator方法构建校正模型,利用applyvqsr算法应用模型进行质量值校正。
20、上述步骤2)对步骤1.6)中质量控制和过滤后得到的高质量snp变异位点vcf文件构建不同地理种群或亚群体样本的参考数据库,首先使用vcf2phylip软件将单核苷酸多态性数据转换为fasta格式的dna序列文件,根据iupac编码格式将dna序列基于独热编码方式映射为数值矩阵。例如,构建参考数据库中每个样本的特征数值矩阵时,独热编码方式具体为:腺嘌呤(a)编码为[[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]],胞嘧啶(c)编码为[[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]],其余iupac中的碱基编码形式依此类推。
21、上述步骤3)中所述的概率值标签矩阵中,对采集自不同地理种群或亚群体的样品进行地理位置编码:每个样本在其来源的地理种群或亚群体编码为100%,其他地理种群或亚群体来源编码为0%。
22、上述步骤4)对步骤2)和3)得到的数值矩阵输入基于深度学习神经网络模型的训练,输入不同地理种群来源样本的全基因组snp位点序列编码的变量,经过基于深度学习的神经网络根据步骤3)的来源信息进行机器学习后输出所属地理种群或亚群体的谱系。
23、所述神经网络模型基于pytorch深度学习神经网络框架构建。在本发明的实施例中构建了基于resnet的深度残差神经网络,包括基于残差捷径连接的卷积注意力模块、最大池化层、模糊池化层和isqrt-cov层,其中,所述基于残差捷径连接的卷积注意力模块是在resnet的残差卷积模块的基础上融合卷积注意力模块,包括通道注意力模块和空间注意力模块。输入的核酸序列(以特征数据矩阵的形式)首先送入适配核酸序列特征提取的卷积层,得到的特征后续送入卷积注意力模块(以串联的顺序依次送入通道注意力模块和空间注意力模块进行矩阵逐元素相乘运算)运算得到的结果与经过残差捷径连接的结果进行相加融合计算;融合计算后的结果送入后续的卷积层、最大池化层、模糊池化层和isqrt-cov层进行进一步的运算,最终得到谱系溯源的输出结果。适配核酸序列特征提取的卷积层为特制更改的二维卷积层,它沿核酸序列顺序进行特征的卷积运算,由于核酸序列在后续转录翻译过程中是有方向性的(即mrna的信息对应着核酸编码链5'—>3'方向的序列信息),因此模型在提取核酸序列特征时最好也按照这个方向进行,才能够提取到有对应生物学意义的特征。通过残差捷径连接来缓解复杂深度神经网络的梯度消失问题,在resnet的残差卷积模块的基础上融合卷积注意力模块来让模型自适应的关注更有利于谱系溯源的关键区分位点,从而达到数据集特异性的自适应学习。为了解决池化下采样的操作带来的输入微小平移或者变换导致输出结果变差的问题,我们的模型通过融合模糊池化层在对输入信号进行下采样之前,使用低通滤波来抗混叠,从而使模型对特征局部区域的方差更具鲁棒性。因为基因数据具有很大异质性,不同物种的同一基因区段长度各异,再加上可变剪切等情况进一步加大了分析的难度,因此我们的神经网络通过融合isqrt-cov层来进行提取特征矩阵的维度统一,通过将一阶的均值替换为二阶的协方差使得深度网络能够利用学习后的各通道之间的相关信息,在提高模型准确率的同时也加快了训练速度。
24、优选的,上述步骤4)训练完成后基于十折交叉验证方式对模型进行评估,综合准确率高且置信区间更窄的模型为最优模型,用其进行步骤5)的谱系溯源。
25、在本发明的具体实施方式中,使用了三个真实数据集和两个模拟数据集对上述技术方案的效果进行评估,其中包括东方蜜蜂、红火蚁和驯养家鸡等不同亚种或地理种群的个体。经过测试,本发明在追踪谱系起源以及查询样本来源的地理种群时表现出了高准确率。这意味着该方法可以为研究人员和农林业部门的工作人员提供有效准确的谱系信息。本发明在实际应用中有着广泛的用途和重要性。首先,在遗传研究领域,本发明可以为基因组学研究提供重要的谱系信息。通过深度学习神经网络模型的准确推断,研究人员可以识别个体之间的家族关系、亲缘关系和演化历程,这对于理解物种的遗传多样性、种群变化和进化过程非常重要。其次,在农林业领域,本发明的方法对于农产品溯源具有重要意义。通过准确识别并追踪谱系关系,可以确保农产品的质量、安全和可追溯性。此外,该方法还可以用于家畜育种和动植物保护,帮助农林业部门进行谱系管理和保种工作。在野生动物保护和生态学研究方面,通过分析野生动物个体之间的谱系关系,研究人员可以了解种群结构、基因流和物种的演化历史,有助于制定保护策略和管理措施。
26、此外,本发明提出的遗传位点可解释流程在实际应用中具有多种用途。首先,这种方法可以用于指导下游设计探针或条形码方法。通过分析遗传位点的信息,我们可以确定哪些位点对于特定研究或应用最为关键。基于这些关键位点,我们可以设计特定的探针或条形码,用于针对性地检测或标记感兴趣的基因或序列,这样可以高效地筛选和分析相关的基因或序列,减少测序的成本和复杂性。其次,这种方法还可以帮助优化全基因组测序的成本和复杂性。通过解释遗传位点的信息,我们可以确定哪些位点是关键的,对于特定的研究或应用而言是最有意义的。相比于整个基因组的测序,只针对这些关键位点进行测序可以节省大量的成本和时间,同时降低数据分析的复杂性。本发明提出的遗传位点可解释流程在指导下游设计探针或条形码方法以及优化全基因组测序成本和复杂性方面具有巨大的潜力。它不仅有助于节省资源和精力,还可以提高研究和应用的效率。
27、总的来说,本发明基于全基因组重测序snp数据的深度学习谱系溯源方法在遗传研究、农林业和生态保护等领域具有重要的实际应用价值。它提供了一种准确追踪谱系关系的工具,从而帮助广大科研工作者和农业林业局的一线工作人员了解和保护物种的遗传多样性,并加速推动相关领域的科学研究和应用发展。
28、综上所述,本发明提供了一种基于全基因组重测序获得的单核苷酸多态性大数据和深度学习的谱系溯源方法,通过直接利用全基因组的变异信息相比现有的基于短序列的方法能够得到更多的区分度信息,从而可以分辨地理位置非常近的地理亚群,提高了溯源的分辨率(地理区域范围的进一步缩小);而且深度学习方法相较于机器学习的浅层网络模型能够更好地拟合全基因组级别的大数据。本发明通过参考数据集的训练即可端到端地得到谱系来源,因此本发明,相较于现有的方法,在前期参考数据集所得信息方面和后续特征值提取方面都具有更全面地覆盖特征和更高的可行性。本发明在农产品溯源、家畜育种和动植物保护方面均有着重要的意义。
1.一种基于全基因组重测序snp数据和深度学习的谱系溯源方法,包括以下步骤:
2.如权利要求1所述的谱系溯源方法,其特征在于,步骤1)包括:
3.如权利要求2所述的谱系溯源方法,其特征在于,在步骤1.1)中每个地理种群或亚群体来源包括多个样本;在步骤1.2)中对测序结果进行质量控制和过滤包括去除低质量序列和测序接头序列。
4.如权利要求2所述的谱系溯源方法,其特征在于,步骤1.6)中对全基因组重测序单核苷酸多态性变异结果进行质量控制和过滤的标准是:qualbydepth大于2、fisherstrand大于60、rmsmappingquality大于40、strandoddsratio大于3、次要等位基因计数大于3。
5.如权利要求2所述的谱系溯源方法,其特征在于,步骤2)对步骤1.6)中质量控制和过滤后得到的snp变异位点vcf文件构建不同地理种群或亚群体样本的参考数据库,首先使用vcf2phylip软件将vcf文件转换为fasta格式的dna序列文件,再根据iupac编码格式将dna序列基于独热编码方式映射为数值矩阵。
6.如权利要求1所述的谱系溯源方法,其特征在于,在步骤3)的概率值标签矩阵中,每个样本在其来源的地理种群或亚群体编码为100%,其他地理种群或亚群体来源编码为0%。
7.如权利要求1所述的谱系溯源方法,其特征在于,步骤4)中基于pytorch深度学习神经网络框架构建用于谱系溯源的神经网络模型。
8.如权利要求7所述的谱系溯源方法,其特征在于,步骤4)训练的深度学习神经网络模型是基于resnet的深度残差神经网络,包括基于残差捷径连接的卷积注意力模块、最大池化层、模糊池化层和isqrt-cov层,其中,所述残差捷径连接的卷积注意力模块是在resnet的残差卷积模块的基础上融合卷积注意力模块,包括通道注意力模块和空间注意力模块;输入的核酸序列首先送入适配核酸序列特征提取的卷积层,得到的特征后续送入卷积注意力模块,依次经通道注意力模块和空间注意力模块进行矩阵逐元素相乘运算,运算得到的结果与经过残差捷径连接的结果进行相加融合计算;融合计算后的结果送入后续的卷积层、最大池化层、模糊池化层和isqrt-cov层进行进一步的运算,得到谱系溯源的输出结果。
9.如权利要求8所述的谱系溯源方法,其特征在于,所述适配核酸序列特征提取的卷积层为特制更改的二维卷积层,它沿核酸序列顺序进行特征的卷积运算。
10.如权利要求1所述的谱系溯源方法,其特征在于,步骤4)训练完成后基于十折交叉验证方式对模型进行评估,综合准确率高且置信区间更窄的模型为最优模型,用其进行步骤5)的谱系溯源。
