
解读蛋白质中的 "语言" - ProteinBERT.
三个要点
✔️ 除了传统的MLM任务外,还增加了预测GO注释的任务,用于预训练蛋白质语言模型。
✔️ 提出了一种架构,通过分别处理局部和全局特征,比传统的神经网络更小更快。
✔️ 在包括结构预测和翻译后修饰预测在内的基准测试中优于传统方法
ProteinBERT: A universal deep-learning model of protein sequence and function
written by
(Submitted on 25 May 2021) , , , ,
Subjects: Bioinformatics
Copyright:The copyright holder for this preprint is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is made available under a CC-BY 4.0 International license.
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
蛋白质可以被认为是一种弦,因为它们是由20种不同的氨基酸连接而成的。这导致了越来越多的研究将自然语言处理技术应用于蛋白质。
这种研究的一个例子是蛋白质语言建模。目前正在研究将上下文感知的词嵌入计算方法,如自然语言处理中的BERT,应用于蛋白质,以获得有用的预学习模型,用于下游任务,如二级结构预测和翻译后修饰。解释蛋白质语言模型已经引起了很多关注,因为它们有可能发现以前未发现的生物学见解。
然而,蛋白质和自然语言之间存在着明显的差异,包括
- 蛋白质没有明确的成分,如单词或句子
- 蛋白质在序列长度上显示出比自然语言更大的变化
- 即使蛋白质在序列上相距甚远,由于立体结构等原因,它们也可以相互作用。
因此,有必要找到成功建立这些蛋白质特征模型的方法。
为了考虑到蛋白质的这些特征,这里介绍的ProteinBERT设计了一个架构,分别考虑局部和全局的表示。与传统的自然语言处理中使用的架构相比,这能以更小的网络规模实现更快的训练。
学习前的任务
ProteinBERT在自然语言处理中遵循BERT,并通过两个任务进行预训练:屏蔽语言建模(MLM)和基因本体(GO)注释预测。
GOs是基于基因在细胞中发挥的功能及其亚细胞定位信息的分级分类,而注释则是构建基因和GOs之间的对应关系。在本文中,通过向输入的氨基酸序列和GO注释标签添加噪声来进行学习,让深度学习模型恢复原始输入。这两个任务是同时训练的,整个模型的损失是预测每个站点的标记的交叉熵和预测GO注释标签的二元交叉熵之和。
预测每个部位的氨基酸的MLM任务可以被看作是学习局部特征,而预测GO注释可以被看作是学习全局特征。
深度学习模型的架构
ProteinBERT中使用的深度学习模型的架构如下图所示。正如在预训练任务中提到的,ProteinBERT涉及自我监督学习来恢复输入,这意味着输入和输出张量的大小对每个人来说是相同的。
网络结构是由6层重叠的Transformer块组成,遵循BERT,其中一维卷积层用于计算局部特征,全连接层用于计算全局特征。局部特征通过图中的全局注意力反映在全局特征中,而全局特征通过广播全耦合层影响局部特征。
因此,ProteinBERT的特点是在网络结构中明确划分了学习局部和全局表征。
下游任务的表现
检查先前学习效果的一个方法是通过微调检查下游任务的性能变化。微调使用从预训练中获得的网络参数作为初始值,在与预训练任务不同的任务中进行学习。
ProteinBERT使用以前研究中提出的与蛋白质相关的基准进行评估。TAPE中提出的四项任务被用作基准:二级结构预测、同源性预测、荧光预测和稳定性预测。
TAPE变换器和LSTM与TransformerEncoder被用作比较方法。这些模型都很庞大,由多达3800万个参数组成,而ProteinBERT则相对较小,只有1600万个参数。
结果表明,预训练有利于提高下游任务的性能,与以前的蛋白质语言建模研究中得到的结果相似。它还表明,ProteinBERT记录的性能与传统方法相似或更好。
此外,ProteinBERT设计了在训练模型时定期改变序列长度,以避免对长度的过度拟合,尽管在许多情况下,观察到下游任务的性能随着蛋白质序列长度的增加而下降,但这并不是一个明显的下降,序列的长度据报道,概括性的表现也得到了证实。
我们还推测,这些性能变化是由于不同的原因而不是由于阵列长度,因为在一些基准任务中,阵列长度越长,性能越高。
了解注意机制
全局注意力,正如深度学习模型的架构中所描述的那样,负责在全局特征中反映局部特征。因此,通过分析这些注意力权重,可以发现模式,即下游任务集中在序列的哪些部分。
该论文显示,不同蛋白质的注意权重模式差异很大,但也有共同的模式,一些注意头报告说倾向于关注序列的某些部分,如序列的上游部分。微调前后注意力权重的比较表明,在模型的最后一层有明显的变化。
结论
情况如何?该论文提出了一种新的蛋白质预学习方法ProteinBERT。本文的贡献被认为是引入了一个网络架构,该架构明确地将局部和全局特征的学习分开,使预学习更加有效。这似乎能够实现与只使用一个GPU的传统方法相同或更好的性能。这是令人震惊的。
我们期待着蛋白质语言模型的未来发展。
与本文相关的类别