解读蛋白质语言模型的注意机制
三个要点
✔️ 分析了由蛋白质语言模型预先训练的Transformer的注意力
✔️ 发现复杂的生物特征,如蛋白质折叠,可以通过语言模型的训练获得。
✔️ 在多个架构(TAPE等)和数据集上证实了上述现象
BERTology Meets Biology: Interpreting Attention in Protein Language Models
written by Jesse Vig, Ali Madani, Lav R. Varshney, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani
(Submitted on 26 Jun 2020 (v1), last revised 28 Mar 2021 (this version, v3))
Comments: ICLR 2021.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG); Biomolecules (q-bio.BM)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。
简介
蛋白质语言模型是将自然语言处理中的语言模型应用于蛋白质(氨基酸序列)。由于关于蛋白质如何在体内工作有许多未知数,希望利用大量的数据和预学习,如BERT,可以获得新的见解。BERT中使用的变换器是自然语言处理中广泛使用的架构。近年来,有越来越多的研究通过分析转化器中的注意机制来提高模型的可解释性。特别是,对BERT的解释被称为BERT学。
在本文中,我们试图通过分析注意力机制来提高基于蛋白质序列的预训练模型的可解释性。
模型解释方法
在本文中,我们将两种主要的分析方法应用于基于变压器的预训练模型。
注意力机制的分析
在注意权重超过阈值的氨基酸残基中,我们检查有多少组合实际上具有生物特征。
它是用以下公式计算的。这是一个类似于 "精确 "的措施。
探针任务
探测任务是自然语言处理中的一项辅助任务,用于提高预训练模型的可解释性。它检查在预训练的模型中获得的内部表征包含哪些信息。
具体来说,来自模型的表征被送入一个分类器,以解决一些任务,并检查是否为该任务编码了有用的信息。基于Transformer的模型有两种探测任务:嵌入式探测和注意力探测,其中嵌入式探测针对每层的输出,注意力探测针对注意力权重。
注意力机制的分析结果
蛋白质的二级结构
蛋白质二级结构的一个重要特征是接触图。接触图是蛋白质折叠过程中空间上相互接近的氨基酸的组合。
以这个接触图作为氨基酸对的特征,并应用上述的注意力分析方法,每个预训练模型的$p_{alpha}(f)$在44.5%到63.2%之间。另外,最能反映接触图的注意头位于较深的地层中。
考虑到接触图中的背景概率为1.3%,我们可以说蛋白质语言模型中的预训练获得了反映接触图的高阶表示。
结合点
结合点是指一个蛋白质与另一个分子相互作用的部位。结合点是蛋白质功能的一个非常重要的特征。
指向该结合点的衰减比例,$p_{alpha}(f)$,在45.6%和50.7%之间,考虑到该结合点的背景概率为4.8%,这个比例非常高。
此外,在很高比例的情况下,大部分的关注点都是指结合点。
有人认为,尽管结合点是反映与外部分子相互作用的特征,但它在模型中之所以如此重要,是因为它是与蛋白质的功能直接相关的特征,因此结构图案可能是高度保守的。
翻译后的修改
翻译后修饰是指在蛋白质从mRNA翻译出来后对其进行的改变,其中磷酸化是最常见的翻译后修饰。
众所周知,翻译后修饰在蛋白质的结构和功能中发挥着重要作用。翻译后修饰的$p_{\alpha}(f)$为64%,考虑到翻译后修饰的背景概率为0.8%,这非常高。
然而,提到翻译后修饰位点的关注头数很少。
探测任务的结果
下图显示了预训练模型各层的嵌入和注意力探测的结果。
橙色图显示了嵌入探针的结果,蓝色图显示了注意力探针的结果。使用的指标(Y轴)是二级结构预测的F1得分和结合点和接触点预测的精确度。可以看出,即使在使用相对较低层的输出时,二级结构的预测,如螺旋、转弯和链的预测也是准确的。
对于嵌入式探头来说,精确度基本上是稳步上升的,每一层的有用信息都会逐渐积累。另一方面,对于注意力探针,探针任务的准确性在最后一层突然增加,这表明嵌入式探针和注意力探针的表征是不同的。
摘要
我希望你喜欢它。在本文中,我们将自然语言处理中的预训练模型的解释应用于蛋白质语言模型。值得注意的是,高阶结构的内部表征,如二级结构和接触图,只有通过对20个不同的氨基酸标记进行预训练才能得到。由于对蛋白质功能很重要的结构信息在整个进化过程中是保守的,用大量的数据解决MLM任务可能有助于找到隐藏的信号。
虽然这个项目的主要重点是评估已知的生物特征,但有可能有我们不知道的生物学见解躺在预学习模型中。使用机器学习来揭开生命的神秘面纱是令人兴奋的,但提高机器学习的可解释性很可能是一个瓶颈。
敬请关注进一步的发展!
与本文相关的类别