本发明属于药学遗传学,具体地,本发明涉及一种预测基因变异的变异功能和/或代谢功能的方法及系统,更具体地,本发明涉及一种预测基因变异的变异功能和/或代谢功能的方法、确定基因变异代谢型的方法、预测基因变异的变异功能和/或代谢功能的系统、电子设备和可执行的存储介质。
背景技术:
1、基因突变造成的蛋白质功能变化是人们引起遗传疾病以及用药代谢变化的主要原因,特别是当检测出新发或罕见基因变异时,由于缺少足够的临床证据,科研人员们需要使用基因突变功能预测工具来预测新发或罕见基因变异对个体的影响,因此对基因突变功能预测工具的开发是当前热门的研究方向。大部分的基因突变功能变化预测工具都作用于疾病相关的功能预测,比如sift、polyphen、cadd等工具;在基因变异造成的药物影响上,目前只有少量的研究工具可以运用到该领域,比如apf。但apf方法有以下缺点:1)模型特征较少;2)没有考虑到基因变异的类型,不同类型的基因变异也会影响到变异有害性以及变异代谢功能;3)模型没有输出具体的分数,难以得到确切的分类分数,因此无法实现阈值调优的方法;4)apf的数据集决定了该模型只能够预测药物基因变异的有害性分类,而无法进行变异代谢功能的预测。
2、因此,亟需开发一种为药物基因上的罕见及新发变异预测有害性以及代谢功能的方法或系统。
技术实现思路
1、本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。为此,本发明提供了一种预测基因变异的变异功能和/或代谢功能的方法,本发明的方法可以对基因变异的有害性进行预测,还可以对基因变异的代谢功能进行预测。
2、在本发明的第一方面,本发明提出了一种预测基因变异的变异功能和/或代谢功能的方法。根据本发明的实施例,所述方法包括:提取所述基因变异的致病性特征和/或变异类型特征;采用所述致病性特征和/或变异类型特征作为机器学习模型的输入特征,利用预先经过训练的机器学习模型获得所述基因变异的变异功能和/或代谢功能。根据本发明实施例的方法可对基因变异的有害性进行预测,还可对基因变异的代谢功能进行预测,且具有预测精确度高、灵敏度强和特异性强等优点。
3、根据本发明的实施例,上述第一方面所述的方法还可以进一步包括如下技术特征的至少之一:
4、根据本发明的实施例,所述预先经过训练的机器学习模型是通过如下步骤获得的:提取基因变异的致病性特征和/或变异类型特征;获取所述基因变异的变异功能和/或代谢功能;采用所述致病性特征和/或变异类型特征作为机器学习模型的输入特征,所述变异功能和/或代谢功能作为标记,对所述机器学习模型进行训练,获得用于预测所述基因变异的变异功能和/或代谢功能的所述机器学习模型。
5、根据本发明的实施例,所述变异功能包括有害(deleterious)和无害(neutral)。
6、根据本发明的实施例,所述代谢功能包括代谢功能正常(normal function)、不影响代谢功能(no function)、降低代谢功能(decreased function)和增加代谢功能(increased function)。
7、根据本发明的实施例,所述致病性特征是通过dbnsfp注释数据库对所述基因变异的致病性进行打分获得的。
8、根据本发明的实施例,所述变异类型特征是通过vep注释数据库对所述基因变异的变异类型进行查询获得的。
9、根据本发明的实施例,所述致病性特征有多个,优选为70个以上,更优选为90个;和/或,所述变异类型特征有多个,优选为10个以上,更优选为16个。
10、根据本发明的实施例,所述输入特征包括选自多个所述致病性特征和多个所述变异类型特征中的至少之一,优选为多个所述致病性特征和多个所述变异类型特征。
11、根据本发明的实施例,所述机器学习模型包括选自xgboost、lightgbm、randomforest、logistic regression和factorization machine模型中的至少之一。
12、根据本发明的实施例,所述机器学习模型包括选自xgboost、lightgbm、randomforest、logistic regression和factorization machine模型。
13、根据本发明的实施例,每种所述机器学习模型均采用如下方式进行所述训练:以所述致病性特征和/或变异类型特征和所述基因变异对应的变异功能和/或代谢功能作为数据集,采用n折交叉验证将所述数据集分为训练集和验证集,并对所述机器学习模型进行所述训练。
14、根据本发明的实施例,所述n折交叉验证的n为大于1的正整数,优选为4~10。
15、根据本发明的实施例,所述机器学习模型为多种,所述训练进一步包括:基于多种所述机器学习模型的输出特征,采用投票机制获得最终的输出特征。
16、根据本发明的实施例,所述变异功能包括有害(deleterious)和无害(neutral)。
17、根据本发明的实施例,所述代谢功能包括代谢功能正常(normal function)、不影响代谢功能(no function)、降低代谢功能(decreased function)和增加代谢功能(increased function)。
18、在本发明的第二方面,本发明提出了一种确定基因变异代谢型的方法。根据本发明的实施例,所述方法包括:采用第一方面所述的方法获得基因变异的变异功能和/或代谢功能;基于所述基因变异的变异功能和/或代谢功能,确定所述基因变异代谢型。根据本发明实施例的方法可基于基因变异确定基因变异代谢型,且预测精确度高、灵敏度强和特异性强。
19、根据本发明的实施例,所述变异功能包括有害(deleterious)和无害(neutral)。
20、根据本发明的实施例,所述代谢功能包括代谢功能正常(normal function)、不影响代谢功能(no function)、降低代谢功能(decreased function)和增加代谢功能(increased function)。
21、在本发明的第三方面,本发明提出了一种预测基因变异的变异功能和/或代谢功能的系统。根据本发明的实施例,所述系统包括:获取单元,用于提取所述基因变异的致病性特征和/或变异类型特征;分析单元,用于采用所述致病性特征和/或变异类型特征作为机器学习模型的输入特征,然后利用第一方面所述方法中的预先经过训练的机器学习模型获得所述基因变异的变异功能和/或代谢功能。根据本发明实施例的系统可对基因变异的有害性进行预测,还可对基因变异的代谢功能进行预测,且具有预测精确度高、灵敏度强和特异性强等优点。
22、根据本发明的实施例,所述变异功能包括有害(deleterious)和无害(neutral)。
23、根据本发明的实施例,所述代谢功能包括代谢功能正常(normal function)、不影响代谢功能(no function)、降低代谢功能(decreased function)和增加代谢功能(increased function)。
24、在本发明的第四方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现如第一方面或第二方面所述的方法。根据本发明实施例的电子设备可对基因变异的有害性进行预测,还可对基因变异的代谢功能进行预测,且具有预测精确度高、灵敏度强和特异性强等优点。
25、在本发明的第五方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如第一方面或第二方面所述的方法。根据本发明实施例的可执行的存储介质可对基因变异的有害性进行预测,还可对基因变异的代谢功能进行预测,且具有预测精确度高、灵敏度强和特异性强等优点。
26、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种预测基因变异的变异功能和/或代谢功能的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预先经过训练的机器学习模型是通过如下步骤获得的:
3.根据权利要求2所述的方法,其特征在于,所述变异功能包括有害和无害;
4.根据权利要求1所述的方法,其特征在于,所述致病性特征是通过dbnsfp注释数据库对所述基因变异的致病性进行打分获得的;
5.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括选自xgboost、lightgbm、random forest、logistic regression和factorization machine模型中的至少之一;
6.根据权利要求5所述的方法,其特征在于,所述机器学习模型为多种,所述训练进一步包括:
7.一种确定基因变异代谢型的方法,其特征在于,包括:
8.一种预测基因变异的变异功能和/或代谢功能的系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:存储器和处理器;
10.一种可执行的存储介质,其特征在于,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如权利要求1-7任一项所述的方法。