本发明属于深度学习和生物信息领域,具体涉及一种基于长短时记忆网络和注意力机制的分子活性预测方法。
背景技术:
1、由于大麻素受体在各种生理过程和潜在治疗应用中的广泛影响,发现和开发针对大麻素受体的新型治疗药物已成为一个重要的研究领域。在大麻素受体中,2型大麻素受体(cb2)尤其引人关注,它是内源性大麻素系统的重要组成部分,在调节炎症、疼痛和免疫系统功能方面发挥着至关重要的作用。与1型大麻素受体(cb1)不同,2型大麻素受体主要存在于外周组织中,通常不会产生精神作用,因此成为治疗包括神经退行性疾病、疼痛和炎症在内的多种疾病的诱人靶点,而不会产生与1型大麻素受体激活相关的精神副作用。2型大麻素受体激动剂和拮抗剂的治疗潜力,激发了人们鉴定对2型大麻素受体具有高亲和力和特异性的新配体的浓厚兴趣。
2、尽管调节2型大麻素受体活性具有治疗潜力,但发现2型大麻素受体的配体一直具有挑战性,原因是该受体的药理学非常复杂,而且需要高选择性以避免1型大麻素受体相关副作用。传统的药物发现方法利用计算建模和机器学习来预测配体与受体的相互作用,为经验筛选方法提供了一种更快、更具成本效益的替代方法。然而,这些方法往往难以应对分子相互作用的动态性和高度复杂性,导致对2型大麻素受体的配体活性预测的准确率较低。因此需要提出一种能够准确捕捉配体与受体结合的细微差别,以准确预测配体活性的新方法。
技术实现思路
1、本发明的目的是为解决由于分子相互作用的动态性和高度复杂性,导致现有方法对2型大麻素受体的配体活性预测的准确率低的问题,而提出的一种基于长短时记忆网络和注意力机制的分子活性预测方法。
2、本发明为解决上述技术问题所采取的技术方案是:
3、一种基于长短时记忆网络和注意力机制的分子活性预测方法,所述方法具体包括以下步骤:
4、步骤一、获取2型大麻素受体和配体数据对,并利用获取的全部数据对组成训练集;
5、步骤二、对训练集中的数据对进行预处理后,再将配体活性信息缺失的数据对从训练集中剔除,并为剩余的每个数据对分别生成分子指纹;
6、步骤三、利用步骤二生成的分子指纹对搭建的配体活性预测网络进行训练,将分子指纹所对应配体的活性作为训练标签;
7、步骤四、对于活性待预测的化合物,根据2型大麻素受体和化合物生成待预测的分子指纹,再将待预测的分子指纹输入训练好的配体活性预测网络,通过配体活性预测网络输出活性预测结果。
8、进一步地,将所述步骤一中获取的每个数据对分别作为一个样本,则训练集中共包括m个阳性样本和n个阴性样本。
9、进一步地,所述2型大麻素受体和配体数据对是从chembl、bindingdb以及mizera数据库中获取的。
10、进一步地,所述步骤二的具体过程为:
11、步骤二一、将训练集中的重复样本剔除;
12、步骤二二、将配体活性信息缺失的样本剔除;
13、步骤二三、采用ecfp4算法为剩余的每个数据对分别生成一个分子指纹。
14、进一步地,所述分子指纹为morganfp、rdkitfp或atompairfp。
15、进一步地,所述分子指纹的形式为(x1,y1),(x2,y2),...,(xn,yn),n是分子指纹的个数;
16、其中,x1代表第1个分子指纹的原子属性,y1代表第1个分子指纹的键合模式。
17、进一步地,所述配体活性预测网络包括一个输入层、一个嵌入层、并行的n个lstm单元、一个注意力单元和一个输出层。
18、进一步地,所述配体活性预测网络的训练过程为:
19、步骤1、将全部分子指纹(x1,y1),(x2,y2),...,(xn,yn)通过输入层来输入到配体活性预测网络,在配体活性预测网络内,将各分子指纹通过嵌入层转化为高维空间中的密集表示;
20、步骤2、将第t个分子指纹(xt,yt)对应的密集表示输入到第t个lstm单元,并将第t个lstm单元的输出记为ht,t=1,2,...n;
21、步骤3、将ht和(xt,yt)拼接,将拼接结果记为mt;再将拼接结果mt和ht-1传递至注意力单元,得到拼接结果mt和第t 1个lstm单元的输出ht-1的相关性得分score(ht-1,mt);
22、步骤4、将相关性得分score(h0,m1)、score(h1,m2)、…、score(hn-1,mn)经过softmax函数正规化,得到n个lstm单元输出的重要性权重s1,s2,...,sn;
23、步骤5、根据h0,h1,...,hn-1和s1,s2,...,sn计算拼接向量(h0×s1,h1×s2,...,hn-1×sn);再将计算出的拼接向量经过sigmoid激活函数,sigmoid激活函数输出的向量中的各个元素分别代表各个数据对中配体的预测活性;
24、步骤6、根据步骤5的预测结果和训练标签计算二元交叉熵损失函数值,直至损失函数值收敛时停止训练,获得训练好的配体活性预测网络。
25、更进一步地,所述步骤2的具体过程为:
26、将第t个分子指纹对应的密集表示作为遗忘门的输入:
27、ft=sigmoid wf·ht-1,x′t]+bf)
28、其中,wf是遗忘门的权重矩阵,bf是遗忘门的偏置项,ht-1是t 1时刻的隐藏状态,x′t是第t个分子指纹对应的密集表示,ft是t时刻遗忘门的输出;
29、将第t个分子指纹对应的密集表示作为tanh层的输入:
30、
31、其中,是候选值,wc是双曲正切函数的权重矩阵,bc是双曲正切函数的偏置项,tanh是双曲正切函数;
32、将第t个分子指纹对应的密集表示作为输入门的输入:
33、it=sigmoid wi·ht-1,x′t]+bi)
34、其中,wi是输入门的权重矩阵,bi是输入门的偏置项,it是t时刻输入门的输出;
35、更新后的细胞状态为:
36、
37、其中,ct-1是上一时刻的细胞状态,ct是当前的细胞状态;
38、则当前时刻的隐藏状态ht为:
39、ht=sigmoid woht-1+uox′t+bo)·tanh(ct)
40、其中,wo和uo是输出门的权重矩阵,bo是输出门的偏置项,ht-1是上一时刻的隐藏状态。
41、本发明的有益效果是:
42、本发明利用分子指纹来全面捕捉分子的化学特性,分子指纹经过组合,可以为后续模型提供丰富的分子信息。并利用lstm单元来处理分子序列数据,将分子的结构信息编码成中间表示。将点积注意力机制应用于lstm层的输出,可以增强模型对不同特征的关注程度,使得预测网络可以自动关注对分类任务最有帮助的特征,因此,本发明方法可以更好的适应分子相互作用的动态性和高度复杂性,有效提高配体活性预测的准确率。
1.一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述方法具体包括以下步骤:
2.根据权利要求1所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,将所述步骤一中获取的每个数据对分别作为一个样本,则训练集中共包括m个阳性样本和n个阴性样本。
3.根据权利要求1所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述2型大麻素受体和配体数据对是从chembl、bindingdb以及mizera数据库中获取的。
4.根据权利要求2所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述步骤二的具体过程为:
5.根据权利要求4所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述分子指纹为morganfp、rdkitfp或atompairfp。
6.根据权利要求5所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述分子指纹的形式为(x1,y1),(x2,y2),...,(xn,yn),n是分子指纹的个数;
7.根据权利要求1所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述配体活性预测网络包括一个输入层、一个嵌入层、并行的n个lstm单元、一个注意力单元和一个输出层。
8.根据权利要求6所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述配体活性预测网络的训练过程为:
9.根据权利要求8所述的一种基于长短时记忆网络和注意力机制的分子活性预测方法,其特征在于,所述步骤2的具体过程为: