![打开DNA的语言[DNABERT]](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/December2021/dnabert-min.png)
打开DNA的语言[DNABERT]
三个要点
✔️ 开发了一种先验学习方法(DNABERT),考虑到基因组序列中的全局背景信息。
✔️ 微调预学习模型,以实现对启动子、剪接位点和转录因子结合位点的预测的SOTA。
✔️ 将在人类基因组上学到的DNABERT应用到其他物种的基因组上。
DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome
written by
(Submitted on 1 Aug 2021)
Comments: Bioinformatics2021
, , ,
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
简介
解开作为生物体蓝图的DNA序列(基因组序列)的语言,是生物学的主要目标之一。除了编码基因的区域外,DNA序列还包含调节体内基因表达的区域,其中一个区域就是顺式元素(CREs)。
众所周知,当同一序列被用于不同场合时,顺式元素会改变其功能,要想解开DNA序列的 "语言",就必须成功地建立这种多义性模型。传统的研究已经将CNN和RNN应用于DNA序列。然而,CNN的缺点是它们使用的过滤器长度有限,因此只能获得局部信息。RNNs在序列长度方向上压缩信息,所以它们对长序列如DNA序列的学习效果不好。
在本文中,我们将作为自然语言处理的预学习方法而显示出显著效果的BERT应用于DNA序列,以了解DNA中的 "语言"。
ǞǞǞ
在本节中,我们将详细讨论DNA序列的标记化、预学习和下游任务。
DNA序列标记化
描述了将DNA序列送入预训练模型时的标记化。
DNA序列分析中常用的一种表示方法是K-mer,它类似于自然语言处理中的n-gram表示方法,即从DNA序列中切出k个字符,一次一个字符。
预训练模型的输入是这个K-mer的标记化版本。由于词汇量可以通过改变k的设置而发生显著变化,我们在论文中尝试了四种不同的k={3,4,5,6}。我们使用DNABERT-k作为每个k的预训练模型。
之前的学习
DNABERT只在MLM任务上学习,而不是在BERT中使用的NSP任务上学习,NSP任务掩盖了一定比例的DNA序列,并预测了被掩盖部位的K-mer tokens。然而,被掩盖的站点必须是连续的区域。
用于预训练的训练数据是从人类基因组中抽取的DNA序列。采用两种抽样方法:一种是将序列分成两部分,没有重叠的区域,另一种是随机抽样,有重叠的区域。
微调
对每个下游任务进行微调,以预训练中获得的权重参数为起点。下游任务是启动子预测、转录因子结合点预测和剪接点预测。下文对每项任务进行了详细描述。
推销员预测
这项任务是为了估计近端启动子区域。近端启动子是一个基因上游的DNA区域,对其转录至关重要,如真核生物的TATA盒。我们准备了一个任务来预测TATA盒和其他启动子区域。
我们有两个主要的方法进行比较,第一个是基于深度学习的DeePromoter,第二个是SOTA的PromID。对每个人都进行了微调。
为了与DeePromoter进行比较,将转录起始点上游-249bp到下游50bp的序列作为阳性例子,将包括TATA盒在内的随机选择的序列作为TATA盒的阴性例子,将洗牌后使两个相邻碱基的分布不变的DNA序列作为非TATA盒的阴性例子。反面例子。
为了与PromID进行比较,进行了1001bp的扫描,成功的定义是超过一半的预测区域与转移起点前后500bp的区域相重叠。
转录因子结合点的预测
转录因子是通过与DNA序列特异性结合来调节基因转录的蛋白质。DNA上转录因子结合的区域被称为转录因子结合点。
其任务是预测转录因子的结合点。利用ChIP-seq,即下一代测序和染色质免疫沉淀的结合,我们将对基因组上实验性转录因子结合点的ENCODE数据库进行微调。
预测剪接点
剪接点是指在选择性剪接中去除内含子并连接外显子的部位。在这项任务中,我们将把剪接点分为三类:5'端(供体)、3'端(受体)和非剪接点。
一个剪接点通常由两对核苷酸,即GT和AG组成,但有些剪接点并不遵循这一规则,也有一些区域遵循这一规则,但不是剪接点。这使得预测剪接点成为一项困难的任务。
下游任务的表现
本节介绍了上述微调中每项任务的结果。
推销员预测
下图显示了DNABERT与DeePromoter的性能比较,从左到右分别是正确率、F1得分和Matthews相关系数。DNABERT在TATA上表现良好,而DeePromoter则表现不佳,这表明DNABERT捕捉到了TATA盒中序列图案以外的特征。DNABERT在TATA上的表现也很好,而DeePromoter的表现则很差。
下图比较了DNABERT与其他深度学习方法在CNN和RNN组合架构上的表现。左边是ROC曲线,右边是PR曲线,表明DNABERT能够对DNA序列的整体特征进行建模。
转录结合位点的预测
下图总结了转录结合位点预测工具的结果。左边是正确率,右边是F1分数的小提琴图。DNABERT-TF是唯一的方法,其正确率和F1得分的平均值和中位数都高于0.9。
此外,虽然其他工具在低质量的数据上表现不佳,如实验中获得的数据,但DNABERT-TF记录了相对较高的可重复性和较低的假阳性。
预测剪接点
下图显示了SpliceFinder与其他预测剪接点的工具相比的情况。从左到右,我们绘制了正确答案的百分比、F1分数和马修斯相关系数,显示DNABERT在相同的设置中表现最好,即使SpliceFinder通过递归地添加具有假阳性的序列来重建数据集。
摘要
DNABERT是将自然语言处理中的MLM任务简单地改编为DNA序列,但它在各种任务中的表现非常出色。通过分析DNABERT内部的注意力,获得新的生物学见解将是很有趣的。
与本文相关的类别