赶上最新的AI论文

[SpliceBERT]使用生物物种遗传信息预先训练的 BERT 模型!

[SpliceBERT]使用生物物种遗传信息预先训练的 BERT 模型!

医疗

三个要点

✔️ 开发了 SpliceBERT,与传统方法相比,它在预测与基因有关的剪接任务方面表现出更优越的性能
✔️ SpliceBERT 是利用 72 个脊椎动物物种的前体 mRNA 形式的基因相关信息进行预训练的,然后再利用人类数据进行训练
与传统方法相比,微调提高了准确性。
✔️ SpliceBERT 基于多个物种的基因序列,因此能够捕捉到重要的进化信息。

Self-supervised learning on millions of pre-mRNA sequences improves sequence-based RNA splicing prediction
written by Ken ChenYue ZhouMaolin DingYu WangZhixiang RenYuedong Yang
(Submitted on 3 February 2023)
Comments: Published on bioRxiv

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

导言

人类遗传学与自然语言处理之间的关系

人类遗传信息包含在人体细胞中被称为基因组(即基因)的部分字符串中。这个字符串的组成单位被称为核苷酸,已知有四种特定类型的字母:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和 T(胸腺嘧啶)。

众所周知,将基因组视为字符串,将组成基因组的核苷酸视为字符,就可以将基于序列的基因组分析视为与自然语言处理相同的方式。通过利用深度学习的先进语言模型,可以详细了解人类遗传学的功能,并了解特定基因变异与疾病的关系

人类基因组中自然语言处理的挑战

然而,人们认为将语言模型应用于基因组序列与应用于人类语言一样困难。这是因为包含遗传信息的基因组序列非常长(据说人类基因组由大约 32 亿个字符串组成),而且同一基因序列在基因组中的不同位置会表现出不同的特征。

传统方法和研究背景

MMSplice, SpliceAI 和 Pangolin 等模型以前是用于分析基因突变引起的异常剪接。

这些方法是一种模型,可以从基因组序列中识别剪接位点,并对替代剪接(即从单个前体 mRNA 生成多种类型的 mRNA)进行预测。

有许多其他语言模型可以通过这种方式进行拼接相关预测,但它们都是在人类基因组上进行预训练的,因此还不清楚在许多物种的序列上进行预训练是否会改善拼接相关预测。

基因组分析的另一个长期问题是缺乏数据,尽管大规模语言模型(LLM)(如BERT中使用的自监督学习方法已被用于学习蛋白质序列表示,以缓解数据不足的问题、目前还不清楚剪接研究是否能以类似的方式进行。

型号详情

机型概览

在这项研究中,我们在先前学习的基础上开发了一个名为 "SpliceBERT"的模型,该模型以一种名为前体 mRNA 的物质为重点,这种物质是在 DNA 进行名为转录的操作后获得的,并根据人类数据进行了微调。前体 mRNA 是一种通过拼接操作变成 mRNA 的物质(已知 mRNA 通过翻译操作变成蛋白质)。

本文显示,SpliceBERT 可用于更准确地预测前体 mRNA 变成 mRNA 的分支点(与剪接相关的关键序列之一)。

此外,与使用来自单一物种的前体 mRNA 的语言模型相比,使用来自多个物种的前体 mRNA 序列预训练的 SpliceBERT 被证明提高了序列和剪接相关任务的预测准确性。利用人类数据对 SpliceBERT 进行微调的结果也表明,其性能优于传统的基线模型和仅利用人类数据预训练的语言模型

该模型的应用

SpliceBERT 可用来完成图中的 (1)~(4) 部分。

(1) 核苷酸的特性可以用数字向量(嵌入)表示,然后可以定量可视化。这样就能直观地了解核苷酸之间的关系和模式

(2) 基因突变的潜在效果或影响可通过无监督学习进行估计。这有助于在缺乏标记数据的情况下预测基因突变将如何影响基因(本文中为剪接)的功能。

(3) 它可以预测不同物种之间常见的剪接位点(在剪接过程中起重要作用的位点,特别是 mRNA 中去除非蛋白质区域的边界区域)。这有望推动对跨物种基因功能和进化的研究

(4) 可以预测剪接中的分支点(也包括在剪接中起重要作用的位点),并分析这些位点的突变如何影响剪接

虽然图表中没有提及,但我们也相信,根据 Trasnformer 中使用的损耗权重,可以从多个角度考虑演变问题,而这在以前是做不到的。

模型结构

如图所示,SpliceBERT 由六个变压器编码器组成。每个序列中的位置信息都使用单次位置嵌入法进行标记化。在预训练过程中,从 72 个脊椎动物物种中提取了 200 多万条前体 mRNA 序列进行预训练。

在预训练过程中,大约 15%的序列会被随机屏蔽,然后使用交叉熵损失函数来学习屏蔽标记的字符。然后,该方法可应用于与拼接相关的各种下游任务,与 BERT 模型类似。

实验结果


图 B 的上半部分显示了SpliceBERT 模型在几个具有不同功能的基因区域中的准确性(即模型预测屏蔽部分的准确程度)。图 B 的下部显示了基因序列的重复程度

根据基因区域的不同,模型的准确性也有很大差异,尤其是在重复区域较多的内含子中,模型的准确性更高。这表明,重复区域的比例对 MLM 任务有重大影响

图 C 显示了 phastCons100way 分数的分布情况。phastCons100way 是一种工具,用于识别在进化过程中发生突变而不发生变化的区域。

该工具比较了 100 个不同物种的基因组序列,并指出每个核苷酸的保守概率(即序列在不同物种中是否不变),数值接近 1 表示序列在多个物种中是保守的。在本文中,如果该值大于 0.8,则定义为保守;如果小于 0.8,则定义为非保守。

图 D 显示了使用 SpliceBERT 及其衍生模型SpliceBERT-human和单击编码模型处理分类问题的准确率曲线。而 SpliceBERT-human 的表现则优于其他模型。

上图 F 和 G 显示了 SpliceBERT 与其他模型在预测突变影响方面的性能比较。这表明,SpliceBERT 的表现优于其他方法。

以上三图显示了对模型中使用的变压器关注度权重的分析。

从图 A 可以看出,来自同一内含子(内含子是前体 mRNA 中的一部分,在剪接过程中被从前体 mRNA 中移除)的供体-受体对在剪接过程中配对,其中称为供体的部分和称为受体的部分的序列具有一个已证明这些基团比其他基团具有更高的保留权重

图 B 还显示,与内含子区域相比,外显子区域(外显子区域是前体 mRNA 在剪接过程中没有从前体 mRNA 中移除的部分)的 phastCons 得分更高(即更保守)。

图 C 显示了按转化层对供体和受体周围注意力权重分布的分析,显示注意力在受体和供体周围富集,尤其是在第 3 层至第 5 层,即这些层与 RNA 剪接分析特别相关。有人认为,这些层可能与 RNA 剪接分析特别相关。

结合图 A~C 可以研究变形体注意权重和保守区域之间的关系,并对进化有更深入的了解

此外,在上图中,我们使用UMAP(Uniform Manifold Approximation and Projection)将剪接位点嵌入向量的表示可视化为二维剪接位点以蓝色、橙色、绿色和红色表示,如图右侧所示结果表明,当要求将剪接位点聚类为蓝色、橙色、绿色和红色等四种模式时,Splice BERT 比传统的 DNA BERT 方法和单次热处理方法表现得更好(分类效果更好),如图右侧所示。

上图还显示了与传统模型相比,在解决预测五个不同物种中精灵位点位置的问题时,F1 分数的变化情况。模型准确性和可重复性的调和平均值(预测准确性的衡量标准)显示,SpliceBERT在人类身上的表现尤为出色,但在其他物种身上的表现也同样出色。在预测分支点和精灵位点方面,它的表现也优于传统方法。

实验结果摘要

在一系列与剪接相关的任务中,SpliceBERT 的表现都优于传统方法,如估计基因变异对功能的影响程度以及剪接中的重要区域。

摘要

我们开发了SpliceBERT,这是一个预先训练的语言模型,包含多个物种的前体 mRNA 序列,便于研究人体细胞中发生的剪接。

SpliceBERT不仅有助于我们了解拼接的工作原理,而且已证明其性能优于其他仅在人类数据上预先训练过的语言模型

由于很难预测某些组织和细胞的特定剪接,因此预计 Splice BERT 将在未来得到更好的改进。此外,通过采用蒸馏学习技术将 LLM 知识转移到 CNN 等轻量级架构,或通过开发预训练的基因组序列语言模型而不使用转换器,可以使 Splice BERT 处理更长的序列。一些想法包括

我个人认为,如果每种生物的基因组和系统发育树的相似性都能在预研究中得到反映,那么研究结果的变化会更大。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们