遺伝情報が記されたmRNAの機能予測を行うBERTベースのモデルが登場！

Large language models 2024年10月30日

3つの要点
✔️ 遺伝に関連するmRNAの物質の修飾の状態から、その物質が分解されるかを予測するモデルとしてm6A-BERT-Degが提案
✔️ 事前学習を行わない場合や従来の各モデルと比較して、予測精度の向上を実現
✔️ BERTのトークンの寄与を解析することによって、生物学的に新しい機構を発見したことについても示唆

Understanding YTHDF2-mediated mRNA Degradation By m6A-BERT-Deg
written by View ORCID ProfileTing-He Zhang,Sumin Jo,Michelle Zhang,Kai Wang,Shou-Jiang Gao,Yufei Huang
(Submitted on 15 Jan 2024)
Comments: Published on arXiv
Subjects: Molecular Networks (q-bio.MN)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

イントロダクション

前提知識1（mRNAについて）

ヒトをはじめとする生物の遺伝情報はDNAに記載されていますが、実際に遺伝子の情報に基づいて私たちの体の機能を制御するためには、DNAに記載されている遺伝情報をまずmRNAという物質に写し取り、そのmRNAの情報を用いてタンパク質を合成する必要があります。

つまり、DNAの情報を体の機能をつかさどるタンパク質に変換するためには、mRNAという別の媒体に一度コピーすることが必要であることが知られています。DNA、mRNA、タンパク質の関係を例えると、DNAは料理のレシピ本、mRNAはレシピ本を写し取ったコピー、タンパク質は完成された料理と考えると分かりやすいでしょう。

前提知識2（mRNAの機能の調節について）

mRNAは、修飾という飾りのようなものが付け加えられる操作が起こることがあります。そのような修飾の代表例に、m6Aという修飾があります。mRNAの文字列を構成する単位は四種類あり、それらを一文字で表すと「A」「G」「C」「U」であることが知られていますが、m6Aとは「A」の窒素原子の部分に「メチル基」という飾りがつくことを表しています。

このような修飾を受けることで、mRNAは自身の分解を調節する役割を持つタンパク質を引き寄せるような働きをすることが知られていました。しかし、m6Aの修飾があるからといって必ずしもmRNAが分解されるわけではなく、その詳細なメカニズムはまだ完全には解明されていませんでした。

この安定性の調節は、急性骨髄性白血病の癌幹細胞をはじめとする様々な細胞や生物学的プロセスに大きく関連しており、それらの解明が期待されていました。

研究背景

そこで、この研究では、m6Aの修飾があるmRNAが分解されるかを予測するために、m6A-BERTというモデルを開発しました。さらに、mRNAの寿命データ（半減期）を使って、このモデルにファインチューニングを用いて改良を行ったm6A-BERT-Degを提案しました。

mRNAの半減期とは、mRNAが分解される速度と関連しており、分解の機構を解明するにあたって重要なパラメータとなっています。

m6A-BERT-Degは、他の最先端の深層学習を用いた手法と比較して高い精度を示し、その有効性が確認されました。

モデルの構造

モデルの全体像

mRNAは、細長い鎖のような構造をしており、四種類の各構成単位が連結して列をなすような構造となっています。つまり、各構成要素を一文字の省略記号で表すと、mRNAは文字列の形で表すことができます。

m6A-BERTは、自然言語処理でお馴染みのBERTモデルをベースとした手法であり、その全体像は上図のようになっています。Aで示す事前学習と、C（下段）のデータを用いてBで示すようなようなファインチューニングを行う過程からなります。

以下に、モデルの各構造の詳細を示します。

トークン化の詳細

本モデルでは、mRNAの文字の配列を入力データとして使い、トークン化を行っています。トークン化を行うにあたっては、図に示すようなスライディングウィンドウという手法を用いています。

この手法は、mRNAの配列のうち、ある一定の幅の長さ（上図ではその長さを3に設定しています）の一部分を抽出した上で、文字列全体に対して抽出する部分を少しずつずらしながらトークン化をしていく手法です。

ここでは、3つの文字列の集まりを一つのかたまりとしてみなします。つまり、図中で「AGC」(一文字目から三文字目）を一つのトークンとして扱います。さらに、二文字目から四文字目に該当する「GCG」、同様に「CGG」、「GGA」などをそれぞれトークンとして扱います。

なお、図中で赤字で示されている部分が実際にm6A修飾が行われている部分を指し、そこから250文字分離れた列のデータまでを解析の対象とすることが示されています。また、［CLS］、［SEP］というトークンはそれぞれ先頭、および末尾に付け加えられている特殊なトークンを指しています。

上の例では幅が3である場合を考えましたが、本論文では幅を3、4、5、6という4つに設定し、異なる粒度で事前学習を行っています（なお、論文中の実験によりこの幅で設定した場合においてもほぼ同様の精度を示すことが分かっています。）

事前学習の詳細

事前学習時には、m6A配列から得たトークンのうち15%をランダムにマスクします。すなわち、図の黒い部分で示されるように、トークンを［MASK］トークンに置き換えます。

そして、埋め込みによって得られる出力に対して12層からなるTransformerブロック、および分類層を通すことにより、マスクされたトークンの予測を行います。

なお、事前学習時には、24の組織や細胞株からなるm6Aの修飾を含むmRNAの配列を示したm6A-AtlasV2というデータセットを用いています。

ファインチューニングの詳細

ファインチューニング時には、事前学習されたモデルにバイナリ分類層を導入しています。この層は、mRNAの分解についての調節を行うと予測した場合に1を、調節を行わないと予測した場合に0を出力するような層となっています。

ファインチューニングの際には、上図のようにデータセットを構築しています。上の円は「m6Aの修飾があり、半減期が増加したmRNA」の部位の数、下の少し大きな円は「m6Aの修飾があり、遺伝子分解を引き起こすあるタンパク質（正式にはYTHDF2というタンパク質）が結合しているmRNA」の部位の数を示します。

また、下の円に入るが、上の円には入らないような部位（すなわち、タンパク質が結合していて半減期が増加していない）7726の部位からランダムに選び取った485の部位を負のセットとして、どちらの円にも入る部位（タンパク質が結合していて半減期が増加している）からランダムに選び取った485の部位を正のセットとしてデータセットを構築しています。

つまり、m6Aの修飾した場所に、mRNAの分解を誘発するタンパク質が結合したデータのうち、実際に分解が行われた場合を正のデータセットとして、分解が行われなかった場合を負のデータセットとして扱っています。

モデルの評価指標について

モデルの性能を評価するために、ACC、マシューズ相関係数、AUC、精度、再現率の5つの指標を選択しました。マシューズ相関係数とは、二値分類問題における評価指標の一つであり、不均衡なデータセットにおいてモデルの性能を評価する際に用いられている評価指標です。なお、本モデルでは5分割交差検証法を用いて性能の比較を行なっています。

実験結果

m6A-BERT-Degの予測性能をベースラインモデルと比較した結果を表に示します。

この論文においては、事前学習の効果を示すために、事前学習を行わずに学習を行なったBERT-baselineや、従来手法のDNABERTを本論文の示す手法でファインチューニングを行なったDNABERT-Deg、また従来のモデルとしてiDeepMVDegとCNN+LSTM-Degを用いた場合と比較して予測性能の検証を行なっています。

本実験より、m6A-BERT-Degはすべてのモデルの中で最も優れた性能を示すことが示されました。特に、事前学習を用いない手法と比較してACCやAUCが4％ほど向上したことから、事前学習の有効性が示されました。

さらに、m6A-BERT-Degを適用して、mRNAの分解調節についてHEK293Tという細胞株（細胞株とは、試験管内で継続的に増殖を行うことを可能にした細胞の集団を指します）を用いて検証を行い、m6A-expressという別の配列解析手法を用いた結果と照らし合わせた結果、このモデルの予測が正しかったことが論文中では示されています。

トークンの寄与スコアによって得られる考察

著者は、図に示すように帰属スコアの大きさを色の濃さで可視化するヒートマップを作成しました。帰属スコアとは、予測に対してそれぞれのトークンがどのように寄与しているかを示す指標であり、このスコアが高いとそのトークンが予測に大きな影響を与えていることを示します。

なお、この図の上半分は正のデータセット、下半分は負のデータセットを用いた場合の帰属スコアについて求めています。横軸はm6Aの修飾が行われている文字の配列部分を示しており、数字はm6Aの修飾が起こっている部分から何文字分だけ離れているかに相当すると考えていただいて大丈夫です。

この図より、横軸が-100付近の領域に関して、部分的にスコアが高くなっている（青の点が点在している）部分があることがわかると思います。

この図から、m6Aの修飾が起こる部分自体の帰属スコアは低く出る（すなわち、学習におけるトークンの寄与が少ない）一方で、m6A部位に対してある程度上流にある（つまり、負の）領域の帰属スコアが高くなる（すなわち、学習におけるトークンの寄与が高い）領域があることが分かります。

このことは、修飾が起こっている部分の上流の領域がmRNAの分解の調節に大きな影響を与える可能性があることが分かります。

新たな生物学的メカニズムの解明の可能性

さらに、この論文ではRNAのある配列に結合する頻度が高いタンパク質を決定する検証を行いました。著者は、そのようなタンパク質の一部にmRNAの安定性を促進する作用があることを指摘し、mRNAの分解が妨げられるためにmRNAの安定性が向上するという仕組みになっているのではないか、という生物学的に新たなメカニズムを解明した可能性があることについても明記されていました。