本技术属于基因数据分析,特别涉及一种基因与疾病关联分析方法、装置、计算机设备以及存储介质。
背景技术:
1、gwas(genome-wide association study,全基因组关联研究)是指在人类全基因组范围内找出存在的序列变异,即snp(single nucleotide polymorphism,单核苷酸多态性),从中筛选出与疾病相关的snps。随着高通量基因分型成本的快速下降,gwas已被广泛用于寻找导致个体罹患复杂疾病或性状的遗传风险因素。然而,由于遗传变异的多基因效应以及较小的效应大小,gwas显示出有限的统计能力。此外,遗传变异与这些性状之间的潜在分子机制尚不清楚。而遗传变异影响性状的一种方式是通过调节基因表达,表达定量性状基因座(eqtl)研究表明了基因表达调控的重要性,基因表达和性状之间的这种关系可以通过测量同一研究对象的遗传变异和转录组数据来研究。当转录组数据在gwas样本中不可用时,twas(transcriptome-wide association,转录组广泛关联研究)为复杂的疾病机制提供了新的见解,并作为执行基于基因的关联分析的替代方法而受到欢迎。
2、目前,twas的分析方法包括predixcan、multixcan以及utmost等,其中predixcan是一种两阶段式方法,它的预测效果可归因于基因表达预测模型的准确性以及基因表达和表型之间的关联。然而,目前的方法并没有充分利用转录组资源的多组织性质和具有调控要素的综合图谱,忽略了组织共享遗传调控的存在。multixcan整合了多组织研究中的信息,通过回归预测跨组织的预测表达数据的主成分来提高关联分析的统计能力,但是,multixcan是一种多组织关联分析方法,其目的不是改善每个组织中基因表达的预测,且每个主成分的效应大小和方向不容易解释。utmost是一种跨组织twas方法,通过使用组惩罚项来做变量选择以提高预测性能。但是,它没有利用组织之间的相似性。
3、日前所述,现有的twas研究方法在训练基因表达预测模型时大多选用的是传统的线性回归模型,预测精度不高,同时在之后基因调控网络的解释中也很难做到精确。
技术实现思路
1、本技术提供了一种基因与疾病关联分析方法、装置、计算机设备以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
2、为了解决上述问题,本技术提供了如下技术方案:
3、一种基因与疾病关联分析方法,包括:
4、构建基于深度学习的gdasa基因表达预测模型;
5、获取基因型以及疾病表型数据,将所述基因型以及疾病表型数据输入训练好的gdasa基因表达预测模型进行基因表达预测;
6、对所述基因表达预测结果与疾病表型数据进行关联分析,通过单变量统计检验得到基因表达预测结果与疾病表型数据之间的显著关联信息,并根据设定阈值筛选出与所述疾病表型数据显著关联的重要基因片段;
7、使用深度学习的可解释性方法计算所述重要基因片段中各个基因位点对所述gdasa基因表达预测模型进行基因表达预测的贡献程度值,并筛选出所述贡献程度值高于设定贡献度阈值的基因位点作为与所述疾病表型数据显著关联的基因位点。
8、本技术实施例采取的技术方案还包括:所述基于深度学习的gdasa基因表达预测模型使用gtex数据库第8版中的基因型及匹配基因表达数据进行训练得到。
9、本技术实施例采取的技术方案还包括:所述gdasa基因表达预测模型包括特征控制门、线性和非线性模块、先验知识融合模块和多任务模块,所述特征控制门用于过滤噪声和不显著的基因位点,所述线性和非线性模块用于集成基因位点之间的线性关联和非线性交互,所述先验知识融合模块用于融合先验知识,所述多任务模块用于利用主成分分析算法构建联合组织二级任务标签,对基因表达预测任务施加影响。
10、本技术实施例采取的技术方案还包括:所述获取基因型以及疾病表型数据具体为:
11、根据疾病类型在gtex.v8数据库中挑选设定数量的特定组织,并获取每个特定组织的全转录组的基因型以及疾病表型数据。
12、本技术实施例采取的技术方案还包括:所述对所述基因表达预测结果与疾病表型数据进行关联分析,通过单变量统计检验得到基因表达预测结果与疾病表型数据之间的显著关联信息,并根据设定阈值筛选出与所述疾病表型数据显著关联的重要基因片段具体为:
13、使用单变量最小二乘回归算法对特定组织中基因表达和疾病表型数据的相关性进行建模为:
14、
15、上述公式中,d是疾病表型数据,δi是截距,是特定组织的第i个基因表达,αi是ols回归模型的系数,εi是残差;构造用于表示表达性状效应大小的t统计值:
16、
17、上述公式中,ti表示第i个表达性状效应大小的t统计值,se表示样本标准差,根据t值计算显著性关联的p值为:
18、pi≡p(|t|>|ti|)
19、上述公式中,pi表示表达性状效应大小的第i个p值,将p值作为评价指标筛选出与疾病表型显著关联的重要基因片段。
20、本技术实施例采取的技术方案还包括:所述使用深度学习的可解释性方法计算所述重要基因片段中各个基因位点对所述gdasa基因表达预测模型进行基因表达预测的贡献程度值具体为:
21、针对每个重要基因片段,使用shap算法计算该重要基因片段的shap value;
22、对所有计算出来的shap value值,取其绝对值表示对应重要基因片段的贡献程度值;
23、针对每一个重要基因片段的shap value矩阵的样本维度做平均化处理,得到该重要基因片段上每个基因位点对应的贡献程度值。
24、本技术实施例采取的技术方案还包括:所述筛选出所述贡献程度值高于设定贡献度阈值的基因位点作为与所述疾病表型数据显著关联的基因位点具体为:
25、针对设定数量的特定组织,使用统计学中的bootstrap抽样方法在每个特定组织的所有基因片段中随机有放回地抽取设定数量的基因片段,得到n个基因片段;
26、计算n个基因片段中所有基因位点的shap value分布,取所述shap value分布的置信区间95%分位点的值作为贡献度阈值;
27、筛选出所述贡献程度值高于贡献度阈值的基因位点作为与所述疾病表型数据显著关联的基因位点。
28、本技术实施例采取的另一技术方案为:一种基因与疾病关联分析装置,包括:
29、模型构建模块:用于构建基于深度学习的gdasa基因表达预测模型;
30、基因表达预测模块:用于获取基因型以及疾病表型数据,将所述基因型以及疾病表型数据输入训练好的gdasa基因表达预测模型进行基因表达预测;
31、关联分析模块:用于对所述基因表达预测结果与疾病表型数据进行关联分析,通过单变量统计检验得到基因表达预测结果与疾病表型数据之间的显著关联信息,并根据设定阈值筛选出与所述疾病表型数据显著关联的重要基因片段;
32、基因位点筛选模块:用于使用深度学习的可解释性方法计算所述重要基因片段中各个基因位点对所述gdasa基因表达预测模型进行基因表达预测的贡献程度值,并筛选出所述贡献程度值高于设定贡献度阈值的基因位点作为与所述疾病表型数据显著关联的基因位点。
33、本技术实施例采取的又一技术方案为:一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,其中,
34、所述存储器存储有用于实现所述基因与疾病关联分析方法的程序指令;
35、所述处理器用于执行所述存储器存储的所述程序指令以控制基因与疾病关联分析方法。
36、本技术实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述基因与疾病关联分析方法。
37、相对于现有技术,本技术实施例产生的有益效果在于:本技术实施例的基因与疾病关联分析方法、装置、计算机设备以及存储介质通过构建基于深度学习的gdasa基因表达预测模型,利用gdasa基因表达预测模型进行基因表达预测,对基因表达与疾病表型进行关联分析,通过单变量统计检验得到基因表达与疾病表型之间的显著关联信息,并根据设定阈值筛选出与疾病表型显著关联的重要基因片段,使用深度学习的可解释性方法计算出重要基因片段中各个基因位点对模型基因表达预测的贡献程度值,并筛选出贡献程度值高于设定贡献度阈值的基因位点作为与疾病显著关联的基因位点。本技术实施例的gdasa基因表达预测模型基于深度学习框架,使基因表达的预测精度更高,并大大提高了模型可解释分析的精确度。
1.一种基因与疾病关联分析方法,其特征在于,包括:
2.根据权利要求1所述的基因与疾病关联分析方法,其特征在于,所述基于深度学习的gdasa基因表达预测模型使用gtex数据库第8版中的基因型及匹配基因表达数据进行训练得到。
3.根据权利要求2所述的基因与疾病关联分析方法,其特征在于,所述gdasa基因表达预测模型包括特征控制门、线性和非线性模块、先验知识融合模块和多任务模块,所述特征控制门用于过滤噪声和不显著的基因位点,所述线性和非线性模块用于集成基因位点之间的线性关联和非线性交互,所述先验知识融合模块用于融合先验知识,所述多任务模块用于利用主成分分析算法构建联合组织二级任务标签,对基因表达预测任务施加影响。
4.根据权利要求3所述的基因与疾病关联分析方法,其特征在于,所述获取基因型以及疾病表型数据具体为:
5.根据权利要求1至4任一项所述的基因与疾病关联分析方法,其特征在于,所述对所述基因表达预测结果与疾病表型数据进行关联分析,通过单变量统计检验得到基因表达预测结果与疾病表型数据之间的显著关联信息,并根据设定阈值筛选出与所述疾病表型数据显著关联的重要基因片段具体为:
6.根据权利要求5所述的基因与疾病关联分析方法,其特征在于,所述使用深度学习的可解释性方法计算所述重要基因片段中各个基因位点对所述gdasa基因表达预测模型进行基因表达预测的贡献程度值具体为:
7.根据权利要求6所述的基因与疾病关联分析方法,其特征在于,所述筛选出所述贡献程度值高于设定贡献度阈值的基因位点作为与所述疾病表型数据显著关联的基因位点具体为:
8.一种基因与疾病关联分析装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,其中,
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述基因与疾病关联分析方法。
