遺伝情報が記されたmRNAの機能予測を行うBERTベースのモデルが登場!
3つの要点
✔️ 遺伝に関連するmRNAの物質の修飾の状態から、その物質が分解されるかを予測するモデルとしてm6A-BERT-Degが提案
✔️ 事前学習を行わない場合や従来の各モデルと比較して、予測精度の向上を実現
✔️ BERTのトークンの寄与を解析することによって、生物学的に新しい機構を発見したことについても示唆
Understanding YTHDF2-mediated mRNA Degradation By m6A-BERT-Deg
written by
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
イントロダクション
前提知識1(mRNAについて)
ヒトをはじめとする生物の遺伝情報はDNAに記載されていますが、実際に遺伝子の情報に基づいて私たちの体の機能を制御するためには、DNAに記載されている遺伝情報をまずmRNAという物質に写し取り、そのmRNAの情報を用いてタンパク質を合成する必要があります。
つまり、DNAの情報を体の機能をつかさどるタンパク質に変換するためには、mRNAという別の媒体に一度コピーすることが必要であることが知られています。DNA、mRNA、タンパク質の関係を例えると、DNAは料理のレシピ本、mRNAはレシピ本を写し取ったコピー、タンパク質は完成された料理と考えると分かりやすいでしょう。
前提知識2(mRNAの機能の調節について)
mRNAは、修飾という飾りのようなものが付け加えられる操作が起こることがあります。そのような修飾の代表例に、m6Aという修飾があります。mRNAの文字列を構成する単位は四種類あり、それらを一文字で表すと「A」「G」「C」「U」であることが知られていますが、m6Aとは「A」の窒素原子の部分に「メチル基」という飾りがつくことを表しています。
このような修飾を受けることで、mRNAは自身の分解を調節する役割を持つタンパク質を引き寄せるような働きをすることが知られていました。しかし、m6Aの修飾があるからといって必ずしもmRNAが分解されるわけではなく、その詳細なメカニズムはまだ完全には解明されていませんでした。
この安定性の調節は、急性骨髄性白血病の癌幹細胞をはじめとする様々な細胞や生物学的プロセスに大きく関連しており、それらの解明が期待されていました。
研究背景
そこで、この研究では、m6Aの修飾があるmRNAが分解されるかを予測するために、m6A-BERTというモデルを開発しました。さらに、mRNAの寿命データ(半減期)を使って、このモデルにファインチューニングを用いて改良を行ったm6A-BERT-Degを提案しました。
mRNAの半減期とは、mRNAが分解される速度と関連しており、分解の機構を解明するにあたって重要なパラメータとなっています。
m6A-BERT-Degは、他の最先端の深層学習を用いた手法と比較して高い精度を示し、その有効性が確認されました。
モデルの構造
モデルの全体像
まとめ
本研究では、m6A修飾によるmRNAの分解を予測するためのモデルとして、BERTをベースとしたm6A-BERT-Degが提案されました。
本モデルは、mRNAの配列を文字列としてトークン化し、マスクされたトークンを予測する事前学習と、分解の予測を行うためのバイナリ分類層を導入したファインチューニングによって学習を行なっています。
本モデルの性能は、事前学習を行わない場合や従来の他の先進的なモデルと比較して高い性能を示しました。また、実際の細胞を用いた実験を行うことで、モデルの正確さを確認しました。
さらに、トークンの寄与に基づく帰属スコアを用いて解析を行った結果、m6A修飾部位の上流で高いスコアが見られ、mRNAの分解を調節するのに重要な領域であることが示唆されました。
個人的には、このような埋め込み層の寄与について考察を行うことで、生物学的な背景知識を十分に考察できるようになることがBERTモデルを醍醐味だと思っており、このような考察を経て新しいメカニズムを解明できるようになったことは注目に値すると考えています。
この記事に関するカテゴリー