现在，基于 BERT 的模型可用于预测具有遗传信息的 mRNA 的功能！

mRNA 的结构就像一条细长的链条，四种组成单位分别连接在一起，形成一个字符串。这意味着，如果每个成分都用一个字母缩写来表示，那么 mRNA 就可以用字符串的形式来表示�

m6A-BERT基于我们熟悉的自然语言处理BERT模型，其整体情况如上图所示，包括 A 所示的预训练和 B 所示的使用 C 数据（下行）进行微调的过程。

模型各结构的详情如下。

代币化细节

在该模型中，mRNA字符序列被用作标记化的输入数据。如图所示，标记化是使用滑动窗口技术进行的。

这种技术的基础是提取具有一定宽度和长度的 mRNA 序列的一部分（上图中的长度设置为 3），然后通过逐渐移动要提取的部分与整个字符串的相对位置，对其进行标记化。

在这里，三个字符串的集合被视为一个单一的块。换句话说，在图中，"AGC"（第一个至第三个字母）被视为单个标记。此外，"GCG"（对应第二至第四个字母）、"CGG"、"GGA "等也分别被视为标记。

请注意，图中红色区域指的是实际进行 m6A 修改的区域，列中距离该区域250 个字符以内的数据都包含在分析中。标记[CLS]和[SEP]分别指在开头和结尾添加的特殊标记。

在上面的例子中，我们考虑了宽度为3的情况，但在本文中，我们将宽度设为 4，即 3、4、5 和 6，并以不同的粒度进行预训练（本文中的实验表明，在这些宽度下，准确率几乎相同）。

初步研究细节

在预训练过程中，m6A 序列中15%的标记会被随机屏蔽。也就是说，这些标记会被替换成[MASK]标记，如图中黑色所示。

然后，由 12 层组成的变换器模块和分类层通过嵌入得到的输出来预测掩码标记。

请注意，预研究期间使用了数据集 m6A-AtlasV2，该数据集显示了 24 种组织和细胞系中含有 m6A 修饰的 mRNA 序列。

关于模型的评估指标

我们选择了五个指数来评估模型的性能：ACC、马修斯相关系数、AUC、准确度和可重复性。马修斯相关系数是二元分类问题中使用的评估指标之一，用于评估模型在不平衡数据集中的性能。请注意，模型的性能是通过五部分交叉验证法进行比较的。

实验结果

与基线模型相比，m6A-BERT-Deg的预测性能如表所示

在本文中，为了证明先验学习的效果，比较了未经先验学习训练的BERT 基准、DNABERT-Deg（其中使用本文介绍的方法对传统方法 DNABERT 进行了微调）以及iDeepMVDeg 和CNN+LSTM-Deg的预测性能。LSTM-Deg作为传统模型进行比较，以验证预测性能。

实验结果表明，m6A-BERT-Deg在所有模型中表现最佳。特别是，与没有先验学习的方法相比，ACC 和 AUC 提高了约 4%，表明了先验学习的有效性。

此外，m6A-BERT-Deg还被用于验证 HEK293T 细胞系（细胞系是指在体外持续生长的细胞群）对 mRNA 降解的调控，并与另一种测序方法m6A-express 的结果进行了比较。论文显示，该模型的预测结果与另一种序列分析方法 m6A-express 的结果相比是正确的。

令牌贡献分提供的考虑因素

如图所示，作者绘制了一张热图，用颜色强度来直观显示归因分数的大小。归因分数是衡量每个标记对预测的贡献程度，分数越高，表示标记对预测的影响越大。

请注意，该图的上半部分显示的是正向数据集的归因得分，而下半部分显示的是负向数据集的归因得分。横轴显示的是字母序列中发生 m6A 修饰的部分，可以肯定的是，数字对应的是距离发生 m6A 修饰部分的字母数。

从图中可以看出，相对于横轴在-100 左右的区域，有些区域的分数部分较高（蓝点散布在周围）。

从图中可以看出，m6A 修饰本身所在区域的归因分值较低（即标记对学习的贡献较低），而在 m6A 位点的上游（即负）区域，归因分值较高（即标记对学习的贡献较高）。研究结果。

这表明，发生修饰的上游区域可能对 mRNA 降解的调控有重要影响。

阐明新生物机制的潜力

此外，论文还验证了哪些蛋白质更频繁地与 RNA 的某些序列结合。作者指出，其中一些蛋白质能促进 mRNA 的稳定性，并明确指出，这可能揭示了一种新的生物学机制，通过这种机制，mRNA的稳定性可能会因为mRNA 降解被阻止而得到增强。报告还指出，一种新的生物机制可能已经被阐明。

赶上最新的AI论文

现在，基于 BERT 的模型可用于预测具有遗传信息的 MRNA 的功能！

导言

前提知识 1（关于 mRNA）

前提知识 2（关于 mRNA 功能的调控）

研究背景

模型结构