本涉及生物信息学中的分子互作预测,特别是在蛋白质与dna之间相互作用的研究中。该方法具体是一种结合了多视图图嵌入技术的预测方法,旨在准确预测蛋白质-dna结合位点。
背景技术:
1、多种生物学活动和过程中,都离不开蛋白质与脱氧核糖核酸(dna)之间的相互作用,如基因表达和调控、dna复制、修复和信号转导。准确鉴定蛋白质与核酸之间的相互作用对于理解蛋白质的分子机制、探索蛋白质功能、识别新药设计的潜在药物靶点具有重要意义。
2、 传统的湿实验方法,如x射线晶体学、快速chip5和冷冻电镜,旨在确定蛋白质与核酸之间的结合模式。然而,它们通常既昂贵又耗时。因此,开发高效准确的计算方法来识别dna结合位点作为常规实验的辅助工具是有必要的。近年来,深度学习被广泛应用于解决蛋白质和dna结合位点预测问题。graphbind方法将蛋白质的二级结构和原子空间位置信息等编码成图的节点特征和边特征,通过图神经网络(gnn) 学习深层特性。graphsite方法引入蛋白质生成模型alphafold2的单一表示预测蛋白质-dna结合位点。glmsite方法将geometric vector perceptron-based graph neural network (gvp-gnn) 应用到蛋白质-dna结合位点预测问题上。由于蛋白质结构生成模型的不断发展,基于蛋白质结构信息的深度学习方法逐渐出现,并且多种方法证明了结合蛋白质结构信息的深度学习可以用于预测蛋白质和dna的结合位点,具有很好的性能。
技术实现思路
1、 本发明的目的在于解决现有的蛋白质-dna结合位点预测准确率的问题,提供一种基于多视图图嵌入融合的预测器,用于检测蛋白质-dna结合位点。该方法利用蛋白质结构生成模型alphafold2获取蛋白质结构,并且使用预训练的蛋白质语言模型 (plms) 生成含结构先验知识的特征编码,同时采用的等变图神经网络和图卷积网络捕获到更多重要的结构信息,提高了预测蛋白质-dna结合位点的准确率。以下是实现本发明目的的技术方案,包含如下步骤:
2、1. 收集样本数据集:获取训练集和独立测试集的正样本蛋白质序列和负样本蛋白质序列;使用alphafold2从蛋白质序列生成蛋白质的结构文件pdb;
3、2. 问题转化:将蛋白质-dna结合位点预测问题转换为图的节点分类问题,即将蛋白质信息转换为图结构,构成蛋白质的每个氨基酸作为图上的节点;
4、3. 构建图的拓扑结构:根据步骤1得到的蛋白质结构文件,获取每个氨基酸ca原子的3d坐标,并计算氨基酸之间的欧几里得距离构建距离矩阵,根据预定距离阈值,它被进一步构建成邻接矩阵;
5、4. 图的节点特征编码:基于序列,提取位置特异性得分矩阵(pssm)、隐马尔可夫模型矩阵(hmm)、独热编码(one-hot),结合三个蛋白质语言模型(esm2、prottrans、msa)生成的嵌入。基于结构,提取原子特征(atomic features, af)和蛋白质的二级结构谱(second structure profile, ss)共同组成了蛋白质图的节点特征。
6、5. 图的边特征编码:为表征氨基酸与氨基酸之间的关系,采用图上两点之间的欧几里得距离和夹角之间的cosine值作为边的特征编码;
7、6. 构建模型:得到包含节点特征和边特征的蛋白质图后,分别采用等变图神经网络(egnn)和图卷积网络ii(gcnii)生成图嵌入,将生成的不同视图的图嵌入拼接后,传入多个独立的门控多头注意力机制进行动态赋权融合,融合后的嵌入传入多层感知机(mlp)得到最后的预测结果。
8、7. 模型优化:采用dropout技术和grid search技术对预测模型进行优化;
9、8. 模型评估:基于5折交叉验证和独立测试进行模型评估,具体使用到特异性(specificity, spe)、精确率(precision, pre)、召回率(recall)、 f1分数 (f1-score,f1) 和马修斯相关系数(matthews correlation coefficient, mcc) 作为评估指标进行性能衡量。
1.一种基于图嵌入融合的蛋白质-dna结合位点预测方法egpdi,其过程包括如下步骤:
2.5) 图的边特征编码:为表征氨基酸与氨基酸之间的关系,采用图上两点之间的欧几里得距离和夹角之间的cosine值作为边的特征编码;
3.7) 模型优化:采用dropout技术和grid search技术对预测模型进行优化;
4.该方法充分考虑蛋白质的结构信息,通过融合蛋白质语言模型生成的包含大量蛋白质结构和功能信息的嵌入,丰富了模型对蛋白质的表征能力;同时,采用等变图神经网络和图卷积网络结合的方式进行特征提取,得到的嵌入既保留下蛋白质重要的结构特性(旋转、平移等变性)也涵盖了全局和局部信息,使得模型具有更优越的预测性能。
5.根据权利要求1所述的一种基于图嵌入融合的蛋白质-dna结合位点预测方法egpdi,其特征在于,步骤4)和步骤6)中所述的图的节点特征编码方案和模型构建,模型保留并捕获更多重要结构信息的同时,获得了高性能的预测结果。
