![[IGModel]提高基于 GNN+Attention 机制的方法在药物发现中的实用性](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/July2024/igmodel.png)
[IGModel]提高基于 GNN+Attention 机制的方法在药物发现中的实用性
三个要点
✔️ IGModel 是一个利用深度学习的模型,可以同时预测体内蛋白质和候选药物分子之间的结合强度和结合形状,该模型已被提出
✔️ IGModel 可以学习体内的物理相互作用(原子之间如何相互作用),这使得它可以将其性能与之前的模型进行比较证实 IGModel 对不同类型的数据更稳健,包括包含 AlphaFold2 预测的新蛋白质结构的数据集
✔️ IGModel 对不同类型的数据更稳健,包括包含 AlphaFold2 预测的新蛋白质结构的数据集。包括包含 AlphaFold2 预测的新蛋白质结构的数据集。
A New Paradigm for Applying Deep Learning to Protein-Ligand Interaction Prediction
written by , , , , , , ,
(Submitted on 3 November 2023)
Comments: Published on bioRxiv
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
导言
深度学习在药物发现(发现治疗药物)领域的应用以及传统方法面临的挑战。
药物(尤其是我们将在本文中讨论的被称为抑制剂的药物)通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此,在设计药物时,必须优化这些结合的亲和力和药理特性,并准确预测蛋白质与药物之间的相互作用。
近年来,人们尤其提倡使用深度学习来分析它们之间的相互作用。这类模型的突出例子包括利用CNN的 AtomNet、Kdeep 和 Pafnucy,以及利用二维卷积网络进行分析的 OnionNet。然而,这些方法实际对接蛋白质和药物的成功率很低,在实用性方面面临挑战。
传统模型的另一个问题是无法同时表示RMSD(蛋白质与候选药物结合方式的指标)和 pKd(两者相互作用强度的指标)。这意味着在讨论候选药物时,无法从多个角度利用信息,因此希望能有所改进。
该模型的新颖性
因此,本文提出了一种名为 IGModel的新模型。通过利用蛋白质和与之结合的候选药物的几何信息,与传统模型相比,该模型能够在单一框架内同时测量RMSD(与前面提到的结合精度相关的测量指标)和pKd(与前面提到的结合强度相关的测量指标)。在包含由 CASF-2016 基准和工具 PDBbind-CrossDocked-Core、DISCO 集和 AlphaFold2 生成的结构的数据集中,IGModel提高了药物对接的成功率,与传统模型相比,它的实用性的实用性有所提高。
型号详情
整体模型
IGModel 的全貌是,它将蛋白质、候选药物及其结合位点作为输入,并输出上述两个结合指标RMSD 和 pKd。它由一个编码器模块和一个解码器模块组成,解码器模块包括 RMSD 解码器和 pKd 解码器。
编码器模块根据输入数据在潜在空间中进行嵌入,其特点是引入了EdgeGAT 层(如下所述),以更好地反映模型中蛋白质与候选药物之间的相互作用。解码器模块使用两个学习模块,分别利用潜空间的信息输出两类指标。
图表结构细节
本文使用的图结构将组成蛋白质和候选药物的原子信息表示为节点,将节点之间的相互作用信息表示为边。节点大致分为两类:一类称为 VR 节点,代表构成蛋白质的原子信息;另一类称为 VL 节点,代表构成候选药物的原子信息。VR 节点和 VL 节点嵌入了不同的信息。
具体来说,节点和边嵌入的信息如下:在 VR 中,节点嵌入了候选药物组成元素的信息(如氮(N)、碳(C)等的单次矢量化)。而在 VL 中,则嵌入了有关蛋白质化学特性的信息,如组成蛋白质的氨基酸、蛋白质的组成元素、蛋白质电荷的大小、是否为芳香族、到α碳的距离等。
另一方面,边缘嵌入的信息主要是连接原子的化学键,如键的类型(单键或双键)、是否存在环状结构、立体构型以及键是否共轭。此外,还嵌入了蛋白质与候选药物之间的角度信息,如上图中的 B 所示。
编码器详细信息
编码器部分将两个图结构作为输入:第一个图(图 A 左上角的图)包含蛋白质、候选药物以及蛋白质和候选药物在结合部位的相互关系的信息,而第二个图(图 A 左下角的图)只包含结合部位和蛋白质之间的相互关系,同时应用了三维结构的信息。第二幅图(图 A 左下角的图形)仅以图形结构显示结合部位的相互关系,同时应用了三维结构信息和物理化学视角。
在编码器的 EdgeGAT 层中,节点和边会随着输入的更新而更新 EdgeGAT 层是一种图神经网络,它在聚合节点及其周围节点的特征时使用注意机制来整合信息。该模型是图注意网络概念的进一步发展。
EdgeGAT 层有一种机制,可将边缘信息纳入节点和边缘特征的特征表示中作为输入。因此,它可以并行和相互并行地遍历节点和边缘特征。因此,它可以适当利用节点之间的关系以及边本身的属性和特征,并能比没有这种机制时更适当地考虑交互作用。
需要注意的是,在这个模型中,更新一次执行两次,但在两次更新之间,引入了一个称为信息传递轮的过程。一轮信息传递是在两个不同类型的节点之间传输信息。
具体机制略去不表,但在第一次更新过程中,即在对前面提到的两种类型的 VL 和 VR 分别进行更新之后,信息传递过程涉及VL 之间、VR 之间以及 VL 和 VR 之间的信息传递。这样,各轮更新之间的信息传递过程可以更准确地反映蛋白质与候选药物之间的相互作用。
经过两次这样的更新,再穿插一轮信息传递过程,就会嵌入关于蛋白质、候选药物及其结合的总共三个 1024 维的信息向量。然后将得到的三个特征向量合并。这就是编码器部分的输出和解码器部分的输入。
解码器详细信息
解码器部分有两个学习模块,每个模块由一个gMLP 层和一个线性层组成。解码器将编码器的输出转换成两个 128 维向量,这两个向量是通过两个学习模块得到的。
gMLP 层是扩展 MLP 的学习层,是近年来自然语言处理模型中使用的一种技术。该层可以在不使用注意力机制的情况下实现类似 Transformer 的性能。
gMLP 的一个特点是有一个门控机制,负责强调或抑制某些信息。这样就能进行有效的学习,因为它能动态决定如何将每个位置的特征传达给下一层。
在本文中,RMSD 和 pKd 是根据解码器中两类模块各自获得的表示输出的。请注意,正如解码器部分的向下箭头所示,信息是整合在一起的,因此 RMSD 的变化可以反映在 pKd中。pKd 解码器还输出衰减系数W,表示数值的衰减情况。
实验结果
上图显示了使用 CASF2016 数据集预测蛋白质-药物候选结合的实验结果:在 A 部分,使用皮尔逊相关度分析了模型预测与实际实验数据之间的相关性;在 B 部分,使用斯皮尔曼相关度分析了配体适宜性的排序结果;在 C 部分,使用皮尔逊相关度分析了模型预测与实际实验数据之间的相关性;在 D 部分,使用皮尔逊相关度分析了模型预测与实际实验数据之间的相关性。B 中,使用斯皮尔曼相关测量法分析了配体适宜性的排序结果。
请注意,皮尔逊相关测量法是一种测量两个变量之间线性关系强度和方向的方法,而斯皮尔曼相关测量法是一种根据每个变量值的等级(排序)来确定变量之间相关性的测量方法。C 和 D 还显示了模型对接成功率的比较。这些图 A 至 D 显示,IGM 模型的表现优于其他模型。
该图显示了使用 IGM 模型时的Top1成功率(左图)和TopN 成功率(右图):Top1 成功率表示预测的最可能的候选蛋白质与实际匹配的概率。TopN成功率则表示模型预测的前 N 个候选药物中任何一个与实际候选药物匹配的概率。
请注意,Surflex、Glide 和 Vina 指的是本实验中使用的对接软件。实验结果表明,在 Top1 成功率和 TopN 成功率指标上,IGModel 的预测准确率都明显优于传统模型。
在上文图 A~D 中,EdgeGAT 层输出的潜空间中的嵌入表示用颜色编码为:A 表示实际 RMSD,C 表示实际 pKd,B 表示预测 RMSD,D 表示预测 pKd,横轴表示主成分分析得到的第一个主成分,纵轴表示第二个主成分。横轴表示主成分分析得出的第一个主成分,纵轴表示第二个主成分。
从图中可以看出,随着 RMSD 和 pKd 的变化(即预测耦合的性能和耦合的强度发生变化),会形成一个层状图案。例如,在图 A 至图 D 中,可以直观地看到,随着横座标(第一主成分)的增加,其颜色(代表准确度的 RMSD)逐渐从紫色区域变为绿色区域。
因此,编码潜空间的可视化可以直观地反映精确度和耦合强度,并具有很高的可视性。
摘要
在本文中,我们提出了一种用于预测蛋白质与候选药物相互作用的新型框架--IGModel。通过使用这个利用深度学习的模型,可以同时预测候选药物在其结合位置的RMSD和结合强度pKd。
目前,RMSD 和耦合强度衰减的权重是手动设置的,但可以通过引入一种机制,在学习之前了解这两者之间的关系,从而进一步改进。本文作者有兴趣了解使用 2012 年 5 月才发布的 AlphaFold3 时的性能差异。
与本文相关的类别