使用蛋白质语言模型进行零点预测
三个要点
✔️ 利用蛋白质语言模型对蛋白质中的突变效应进行零点预测。
✔️ 记录性能可与现有的预测突变效应的方法相媲美
✔️ 建立一个通用的预训练模型,不需要给予新的教师信号。
Language models enable zero-shot prediction of the effects of mutations on protein function
code:
written by Joshua Meier, Roshan Rao, Robert Verkuil, Jason Liu, Tom Sercu, Alexander Rives
(Submitted on 22 May 2021)
Comments: NeurIPS 2021 Poster
Keywords: Proteins, language modeling, generative biology, zero-shot learning, unsupervised learning, variant prediction![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
背景
蛋白质序列的突变可以改变蛋白质的结构并影响其功能,这取决于突变进入的位置。人们认为,在进化过程中,突变不太可能发生在对蛋白质功能重要的部位,而且结构上接近的氨基酸残基会使突变相互制约。
我们能知道突变如何影响蛋白质功能吗?其中一种方法是深度突变扫描。这种方法是一种实验技术,利用下一代测序仪跟踪基于功能的筛选前后每个突变体的丰度变化。
然而,实验的难度和成本仅限于最多20-30个蛋白质,这不足以研究人类基因组中数以万计的蛋白质。
因此,人们已经进行了研究,以获得使用机器学习预测突变的影响的模型,而无需进行实验,例如通过使用序列的无监督学习。
其中一个例子是蛋白质语言模型,通过用大量的序列进行训练,然后根据所需的任务进行微调,实现了SOTA。然而,缺点是必须为每个任务训练一个新的模型。
本文提出的论文训练了大量的序列,以获得一个通用的预训练模型,然后在不为每个任务提供监督信号的情况下进行零点过渡。
蛋白质语言模型中的零点过渡。
零点学习最初是指一种问题设置,即在分类器的训练中没有出现的类别在测试中被预测,但在自然语言处理中,它已被扩展到一种问题设置,即模型被转移到一个新的任务,而不需要额外的训练。
自然语言处理中的这种零点过渡被拟合到一个蛋白质语言模型上,通过执行过渡而不拟合模型来评估预训练模型的泛化性能,以适应新任务。
作者将预先训练好的屏蔽语言模型(MLM)应用于对蛋白质的功能活性进行排序的任务,以预测当突变被引入野生型蛋白质时,功能是如何改变的。在这种情况下,只需要用蛋白质语言模型进行预训练,而不需要训练新的模型来预测突变效应。
使用先验学习模型进行预测及其评估。
如何用蛋白质语言模型对每个位点的突变的影响进行数字表达?
作者通过将野生型和突变型氨基酸序列输入一个训练有素的预设模型,计算出每个部位的预测概率,然后计算出对数几率,从而量化了突变的影响。计算对数赔率的公式如下。(mt:突变体,wt:野生型)
来自深度突变扫描的实验数据被用作评估模型预测的正确数据;深度突变扫描产生的分数矩阵如下图左下角所示。分数矩阵给出了每个部位的突变是否对增加功能活性起作用的相对表示。
本文的实验考察了MLM对数比和实验验证的分数之间的等级顺序相关性,这种方法证实了在预训练中对每个任务都提取了有用的信息。对数赔率的计算不需要任何额外的训练,因此可以实现上述的零次过渡。
预测比较法中的突变效应。
下面是本文提出的方法与以前的模型的比较图。
虽然EVMutation和Deep Sequence需要为每个任务进行新的模型训练,但ESM-1v(拟议方法)不需要新的训练。ESM-1v的独特之处在于它不需要在推理过程中使用JackHMMer生成属于同一蛋白家族的序列的多重序列比对(MSA)。
模型性能。
下表显示了对41个深度突变扫描数据集的模型评估结果,41个扫描中的10个为验证数据集,其余为测试数据集。表中的数值是正确数据和预测之间Spearman等级相关系数绝对值的平均值。
特定位置评分矩阵(PSSM)将每个位点视为独立的,不能说明由于氨基酸残基相互作用而导致的共同进化;EVMutation是一种方法,它还通过使用共同变异模型来说明次级相互作用;以及Deep序列是一种通过使用潜在变量对氨基酸残基的高阶相互作用进行建模的方法。可以看出,考虑到多个氨基酸残基的相互依存关系的模型能够更准确地估计突变的影响。
使用MSA变换器的预测记录了最好的性能,但ESM-1v(提议的方法)通过微调也记录了类似的性能,考虑到ESM-1v在推理过程中不使用对齐信息,这令人惊讶。以下是研究结果的摘要。
甚至ESM-1v在零射击问题设置中也成功地产生了与EVMutation相当的性能,表明用蛋白质语言模型进行的预训练提取了突变和功能之间的一些关系。
下表显示了使用现有的蛋白质语言建模方法进行零点预测的比较结果。在表中,☨表示五个不同模型的平均值,★表示五个不同模型的集合。
ESM-1v被发现在零点预测方面优于其他现有方法。
ESM-1v使用与ESM-1b相同的结构,并带有标准的MLM预训练。作者指出,即使在几乎相同的训练设置下,训练数据创建方式的差异也是造成这种性能差异的原因。特别是,他们证实了基于序列相似性的训练数据聚类的阈值对下游分析的性能有很大影响。
结论。
情况如何?这里介绍的论文是关于在一个无监督的问题设置中预测蛋白质中的突变效果。这在传统的蛋白质语言模型中还没有尝试过。
零点预测的主要优势是,不需要训练新的、昂贵的模型。零点预测性能的提高将使没有机器学习知识的用户更容易使用蛋白质语言模型进行分析。
与本文相关的类别