DNAの言語を解き明かす【DNABERT】

Bioinformatics 2021年12月02日

3つの要点
✔️ ゲノム配列においてグローバルな文脈情報を考慮した事前学習手法(DNABERT)を開発
✔️ 事前学習モデルのファインチューニングを行い、プロモータ、スプライス部位および転写因子結合部位の予測においてSOTAを達成
✔️ 人間のゲノムで学習したDNABERTを他の生物種のゲノムにも適用

DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome
written by Yanrong Ji, Zhihan Zhou, Han Liu, View ORCID ProfileRamana V Davuluri
(Submitted on 1 Aug 2021)
Comments: Bioinformatics2021

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめ

生物の設計図であるDNA配列（ゲノム配列）の言語を解き明かすことは生物学における大きな目標の一つです。DNA配列には遺伝子をコードする領域に加えて生体内での遺伝子の発現を制御する領域が存在しており、このような領域の一つとしてシスエレメント（CREs）があります。

シスエレメントは同じ配列であっても異なる文脈で用いられることで機能が変化することが知られており、このような多義性をうまくモデリングすることがDNA配列の「言語」を解き明かすために必要です。従来の研究ではDNA配列に対してCNNやRNNを適用してきました。しかし、CNNでは限られた長さのフィルターを用いるために局所的な情報しか利用できないという短所がありました。また、RNNでは配列長方向に情報を圧縮するためにDNA配列のような長い配列では上手く学習が進まないという短所がありました。

今回紹介する論文では自然言語処理における事前学習手法として目覚ましい成果を出しているBERTをDNA配列に適用し、DNAにおける「言語」の理解を目指しています。

DNABERT

本節ではDNA配列のトークン化、事前学習と下流タスクに関して詳しく説明します。

DNA配列のトークン化

DNA配列を事前学習モデルに入力する際のトークン化について説明します。

DNA配列を解析する際によく用いられる表現方法としてk-merがあります。k-merは自然言語処理におけるn-gramに似た表現方法であり、DNA配列から一文字ずつずらしてk文字を切り出していくというものです。

事前学習モデルにはこのk-merをトークン化したものを入力しています。kの設定を変えることで語彙が大幅に変化するため、論文ではk={3,4,5,6}の４つを試していました。それぞれのkで事前学習したモデルをDNABERT-kとしています。

事前学習

DNABERTはBERTで用いられていたNSPタスクは行わず、MLMタスクのみでの学習を行います。DNA配列において一定の割合をマスクし、マスク部位のk-merトークンを予測させます。ただし、マスク部位は連続した領域でなければなりません。

事前学習に用いた訓練データは人間のゲノムからサンプリングしてきたDNA配列です。サンプリング手法には重複する領域のないように配列を分割する方法と、重複する領域ありでランダムにサンプリングする方法の二種類を用いています。

ファインチューニング

ファインチューニングでは、事前学習で得られた重みパラメータをスタート地点として、下流タスクごとに学習を行います。下流タスクとしてプロモーターの予測、転写因子結合部位の予測、スプライス部位の予測を行っています。各タスクについて詳しく説明します。

・プロモーター予測

このタスクは近位プロモーター領域を推定するタスクです。近位プロモーターとはある遺伝子の転写に必要不可欠な上流のDNA領域のことであり、真核生物におけるTATAボックスが代表例として挙げられます。今回はTATAボックスとそれ以外のプロモーター領域を予測するタスクを用意しています。

比較手法として主に二つの手法を挙げており、一つ目は深層学習ベースのDeePromoter、二つ目はSOTAのPromIDという手法です。それぞれに対してファインチューニングを行います。

DeePromoterとの比較においては転写開始点の上流-249 bpから下流50 bpの配列を正例、TATAボックスを含むランダムに選択した配列をTATAボックスの負例、そして隣接する二塩基の分布が変化しないようにシャッフルしたDNA配列をTATAボックス以外の負例としています。

PromIDとの比較においては1001 bpのスキャンを行い、転写開始点の前後500 bpの領域と予測領域が半分以上が重なった場合を成功としています。

・転写因子結合部位の予測

転写因子とはDNA配列に特異的に結合することで遺伝子の転写を制御するタンパク質です。この転写因子が結合するDNA上の領域を転写因子結合部位といいます。

このタスクは転写因子結合部位を予測するというものです。次世代シーケンサーとクロマチン免疫沈降法を組み合わせたChIP-seqという手法で転写因子のゲノム上での結合部位を実験的に取得したENCODEデータベースを用いてファインチューニングを行います。

・スプライス部位の予測

スプライス部位とは選択的スプライシングにおいてイントロンが除去され、エキソンが結合される部位のことです。このタスクではスプライス部位における5'末端（ドナー）と3'末端（アクセプター）、および非スプライス部位という3クラス分類を行います。

スプライス部位はGTとAGという二塩基のペアによって挟まれているのが一般的ですが、このルールに従わないスプライス部位や、このルールに当てはまるがスプライス部位ではない領域が存在します。これによってスプライス部位の予測は難しいタスクとなっています。

下流タスクでの性能

上述のファインチューニングにおける各タスクに関しての結果を解説します。

プロモーター予測

以下の図はDeePromoterとの性能比較です。左から順に正答率、F1スコア、マシューズ相関係数における評価となっています。DNABERTはDeePromoterでの性能が悪いTATAに関しても高い性能を記録しており、DNABERTではTATAボックスの配列モチーフ以外の特徴も上手くとらえていると推測できます。 promoter prediction

下の図は他の深層学習手法との性能比較です。CNNやRNNを組み合わせたアーキテクチャで比較を行っています。左がROCカーブ、右がPRカーブです。DNABERTではDNA配列のグローバルな特徴をモデリングできていると推測できます。

転写結合部位の予測

下の図は転写結合部位予測ツールの結果をまとめたものです。左が正答率、右がF1スコアに関するバイオリンプロットとなっています。DNABERT-TFが正答率とF1スコアにおける平均値と中央値が0.9を超えた唯一の手法となっています。

tf binding sites

また、他のツールは実験で得られるような低クオリティのデータに関して性能が悪化したものの、DNABERT-TFでは比較的高い再現率を記録しており、偽陽性も低くなっていました。

スプライス部位の予測

下の図はスプライス部位の予測における他ツールとの比較を行った結果です。左から正答率、F1スコア、マシューズ相関係数をプロットしています。SpliceFinderでは偽陽性のあった配列を再帰的に加えることによってデータセットを再構成していく手法をとっていますが、同じ設定においてもDNABERTは最も良い性能を記録しています。