【SpliceBERT】生物種の遺伝情報で事前学習を行うBERTモデル！

medical 2024年07月29日

3つの要点
✔️ スプライシングという遺伝に関連するタスクの予測において、従来の手法に比べて優れた性能を示すSpliceBERTを開発
✔️ SpliceBERTは、72種の脊椎動物の前駆体mRNAという遺伝にまつわる情報を用いて事前学習を行ったのちに、ヒトのデータでファインチューニングを行うことによって、従来手法より精度の向上を達成
✔️ SpliceBERTは、複数の生物種の遺伝子配列を元にしているため、重要な進化にまつわる情報を捉えることを実現

Self-supervised learning on millions of pre-mRNA sequences improves sequence-based RNA splicing prediction
written by Ken Chen, Yue Zhou, Maolin Ding, Yu Wang, Zhixiang Ren, View ORCID ProfileYuedong Yang
(Submitted on 3 February 2023)
Comments: Published on bioRxiv

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

イントロダクション

ヒトの遺伝学と自然言語処理の関係について

ヒトの遺伝に関する情報は、ヒトの細胞内に存在するゲノムという文字列の一部分(これを遺伝子といいます)に記載されています。この文字列の構成単位はヌクレオチドと呼ばれており、具体的な文字にはA(アデニン)、G(グアニン)、C(シトシン)、T(チミン)という四種類があることが知られています。

ゲノムを文字列、ゲノムを構成するヌクレオチドを文字とみなすことにより、ゲノムの配列に基づく解析を自然言語処理と同様にみなすことができることが知られており、深層学習を用いた最新の言語モデルを活用することによって、従来の手法では解明が不十分だったヒトの遺伝についての機能の詳細を解明することや、特定の遺伝的変異が疾患にどのように関連しているかを理解することができるようになると考えられています。

ヒトのゲノムで自然言語処理を行う上での課題

しかし、人間が使うような言語と同じように、ゲノムの配列に言語モデルを適用するということは難しいと考えられています。その理由として、遺伝の情報が記載されているゲノムの配列が非常に長いこと(ヒトのゲノムは約32億の文字列から成ると言われています)、また同じ遺伝子の配列であってもその配列がゲノム上のどの場所に存在するかによって異なる特徴を示すことが挙げられます。

従来の手法と研究背景

遺伝子の変異によって引き起こされる異常なスプライシングを解析するためのモデルとして、従来はMMSplice、SpliceAI、Pangolinなどのモデルが知られていました。

これらの方法は、ゲノムの配列からスプライシングされる部位の特定や代替スプライシング（一つの前駆体mRNAから複数種のmRNAが作られること）についての予測を行うことが可能となったモデルです。

このようにスプライシングに関連する予測を行うための言語モデルは他にも多数あるのですが、それらはヒトのゲノムで事前学習されていたため、多くの生物種の配列で事前学習を行うことによってスプライシングにまつわる予測を改善できるかどうかは不明でした。

また、ゲノム解析における慢性的な問題として、データの数が足りないという問題点があり、データ不足の問題を緩和するためにBERTのような大規模言語モデル（LLM）で利用されている自己教師あり学習手法がタンパク質の配列の表現の学習に利用されていましたが、スプライシングに関する研究も同様な手法で進めることができるかどうかについては不明でした。

モデルの詳細

モデルの概要

本研究では、DNAが転写という操作を行うことによって得られる前駆体mRNAという物質に着目して事前学習を行った上で、ヒトのデータでファインチューニングを行ったSpliceBERTというモデルを開発しました。前駆体mRNAは、それにスプライシングというある操作が加えられることによってmRNAとなる物質を指します（mRNAは翻訳という操作によってタンパク質になることが知られています）。

本論文では、SpliceBERTを活用することによって、前駆体mRNAがmRNAとなる分岐点（スプライシングに関連した重要な配列の一つです）の予測をより正確に行うことができるようになることが示されています。

さらに、複数の生物種の前駆体mRNAの配列により事前学習を行なったSpliceBERTは、単一の生物種からなる前駆体mRNAを活用した言語モデルを用いる場合と比較して、配列やスプライシングに関連するタスクの予測精度が向上することが示されました。また、SpliceBERTをヒトのデータでファインチューニングを行うことによって、従来のベースラインのモデルや、ヒトのデータのみで事前に訓練された言語モデルの性能を上回ったことが示されました。

本モデルの応用先

SpliceBERTを活用することで、図の(1)~(4)のようなことを行えるようになると考えられます。

(1)ヌクレオチドの特性を数値的なベクトル（埋め込み）として表現し、これを定量的に可視化することができます。これにより、ヌクレオチド間の関係やパターンを直感的に理解することが可能になると考えられます。

(2)遺伝子の変異が持つ潜在的な効果や影響を、教師なし学習を用いて推定することができます。これにより、ラベル付きデータが不足している場合に、変異が遺伝子の機能（今回の論文ではスプライシング）にどのように影響するかを予測するのに役立ちます。

(3)異なる生物種間で共通するスプライスサイト（スプライシングにおいて重要な役割を果たす部位で、具体的には、mRNAにおいてタンパク質にならない領域が除去される際の境界領域を指します）を予測することができます。これにより、種を超えた遺伝子の機能や進化についての研究が進むと考えられています。

(4)スプライシングにおけるブランチポイント（同じく、スプライシングにおいて重要な役割を果たす部位）を予測し、その場所での変異がスプライシングにどのような影響を与えるかを分析することが可能になると考えられます。

また、図では省略されていますが、Trasnformerで用いたアテンションの重みを元に、従来では行えなかった進化に関する多角的な考察ができると考えられています。

モデルの構造

SpliceBERTは、図に示すように6つのTransformerエンコーダーから構成されています。各配列における位置情報は、ワンホット位置埋め込み法を用いてトークン化されています。事前学習時においては、72種の脊椎動物の200万以上の前駆体mRNAの配列を抽出して事前学習が行われています。

事前学習では、配列中の約15%をランダムにマスクし、マスクされたトークンの文字の学習をクロスエントロピー損失関数を用いて学習を行っています。その後、BERTのモデルと同様に、スプライシングに関連する様々な下流タスクに適用することが可能な手法になっています。

実験結果

図Bの上部は、機能の異なる複数の遺伝子の領域における、SpliceBERTのモデルの精度（すなわち、マスクされた部分をモデルがどれだけ正確に予測できるか）を示しています。図Bの下部は、その遺伝子配列がどれほど反復しているかを示しています。

遺伝子の領域によって精度が大きく異なりますが、特に繰り返しの領域の多いイントロンの部分でモデルの精度が高いことが分かります。これにより、繰り返し領域の割合はMLMタスクに大きな影響を与えることが示唆されます。

図Cは、phastCons100wayスコアの分布を示しています。phastCons100wayとは、進化の過程で変わらずに変異が起こった領域を識別するツールです。

このツールでは、100種類の異なる生物種のゲノム配列を比較することによって、各ヌクレオチドがどれくらい保存されているか（異なる種で変化しない配列か）の確率で示されており、1に近いほど複数の生物種でその配列が保存されていることを示します。この論文では、この値が0.8以上である場合に保存的、0.8未満である場合を非保存的であると定義しました。

図Dは、SpliceBERT、その派生系であるSpliceBERT-human、およびワンホットエンコーディングモデルを使用した分類問題の精度を示す曲線です。Precision-Recall曲線により、SpliceBERTが他のモデルよりも優れた性能を示していることが分かりました。

上図のFやGでは、変異の影響がどれほどであるかを予測するタスクにおいて、SpliceBERTと他のモデルとの性能を比較したものを示しています。これにより、SpliceBERTが他の手法と比較して、性能が高いことが分かりました。

上の3つの図では、モデルで用いたTransformerのAttentionの重みについて分析を行った図となっています。

図Aより、同一のイントロン（イントロンとは、スプライシングの過程で前駆体mRNAから除去される部分を指します）からのドナーとアクセプターのペア（スプライシングにおいては、ドナーという部分とアクセプターという配列の部分がペアになることが知られています）は、他のグループと比べてAttentionの重みが高いことが示されています。

また、図Bよりエキソン領域（エキソン領域とは、スプライシングの過程で前駆体mRNAから除去されない部分を指します）はイントロン領域よりもphastCons scoreスコアが高い（つまり保存度が高い）ことを示しています。

図Cは、ドナーとアクセプターの周辺のAttentionの重みの分布をTransformerの層ごとに分析した結果、特に第3層から第5層でAttentionがアクセプターとドナー周辺で豊かになっていること、すなわちこれらの層がRNAスプライシングの解析に特に関連している可能性が示唆されています。

このように、図A~Cを組み合わせることによって、TransformerのAttentionの重みと保存的な領域との関連性を調べることが可能となり、進化についての知見を深く得ることができると考えられています。

さらに、上の図では、UMAP (Uniform Manifold Approximation and Projection)を用いて、スプライスサイトの埋め込みベクトルを二次元に落とし込み表現を視覚化した結果、スプライスサイトは図の右側に示すような青、オレンジ、緑、赤色のように四パターンにクラスタリングする問題を解かせた際に、Splice BERTが従来手法のDNA BERTやone-hotの手法と比較して高い性能を示す（より良く分類を行えている）ことが分かりました。

また、上図では、5つの様々な生物種において、スプライトサイトの場所を予測する問題を解いた際に、従来のモデルと比較してF1スコアがどのように変わるかを示した図です。モデルの精度と再現率の調和平均であり、予測の正確さを測定するための指標です。SpliceBERTは特にヒトで高いパフォーマンスを示していますが、他の生物種においても同様に高い性能を示すことが分かりました。また、スプライトサイトだけでなく、ブランチポイントの予測においても、同様にして従来手法より高い性能を示しました。

実験結果の総括

SpliceBERTは、遺伝子変異が機能にどれほど大きな影響を与えるかや、スプライシングにおいて重要である領域を推定するといったような、スプライシングに関連する様々なタスクにおいて従来手法より高い性能を示すことが示されました。

まとめ

我々は、ヒトの細胞内で起こるスプライシングの研究を推進するために、複数の生物種から成る前駆体mRNA配列の事前学習済み言語モデルであるSpliceBERTを開発しました。

SpliceBERTは、スプライシングの機能の解明に貢献するだけでなく、ヒトのデータのみで事前学習された他の言語モデルを凌駕することが実証されました。

Splice BERTは、特定の組織や細胞に特異的に見られるスプライシングを予測することが困難であると考えられるため、今後より改善されることが期待されます。また、Splice BERTはより長い塩基配列を扱うことができるようにするために、CNNのような軽量のアーキテクチャにLLMの知識を移行させる蒸留学習技術を採用すること、Transformerを使わずに事前に訓練されたゲノム配列言語モデルを開発することなどが考えられます。

個人的には、各生物のゲノムの類似度や系統樹などを事前学習に反映することができれば、さらに性能が変わるのではないかと考察しています。