タンパク質言語モデルを用いたゼロショット予測

Bioinformatics 2022年04月19日

3つの要点
✔️ タンパク質言語モデルを用いてタンパク質における突然変異効果をゼロショット予測
✔️ 突然変異効果予測の既存手法に匹敵する性能を記録
✔️ 新たな教師信号を与えなくともよい一つの汎用的な事前学習モデルを構築

Language models enable zero-shot prediction of the effects of mutations on protein function
written by Joshua Meier, Roshan Rao, Robert Verkuil, Jason Liu, Tom Sercu, Alexander Rives
(Submitted on 22 May 2021)
Comments: NeurIPS 2021 Poster
Keywords: Proteins, language modeling, generative biology, zero-shot learning, unsupervised learning, variant prediction

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

タンパク質配列における変異は変異の入る場所によってはタンパク質の構造を変化させ機能にも影響を与えます。進化の過程でタンパク質の機能に重要な部位では変異が入りにくく、構造上近いアミノ酸残基は互いに変異を制約しあうと考えられています。

変異がタンパク質の機能に与える影響を知ることはできるのでしょうか。このような手法の一つとしてDeep mutational scanningが挙げられます。この手法は次世代シーケンサーを用いて機能に基づくスクリーニングを行った前後での各変異体の量における変化を追跡する実験手法です。

しかし、実験の難易度やかかるコストなどの観点から最大でも20~30個程度のタンパク質を用いた実験が限度であり、人間ゲノムの何万個にも及ぶタンパク質を調べるには不十分です。

そこで、実験を行わずに機械学習を用いて変異の効果予測するモデルを配列を用いた教師なし学習により獲得する研究などが行われてきました。

その一例であるタンパク質言語モデルでは大量の配列を用いた学習を行ってから目的のタスクにファインチューニングすることでSOTAを達成しました。しかし、タスクごとに新たにモデルを訓練しなければならないという欠点があります。

本稿で紹介する論文では大量の配列を用いた学習で一つの汎用的な事前学習モデルを獲得したのち、各タスクごとに教師信号を与えることなくゼロショット転移を行っています。

タンパク質言語モデルにおけるゼロショット転移

もともとゼロショット学習とは分類器において訓練には出現しなかったクラスをテストにおいて予測する問題設定を指していましたが、自然言語処理では追加でモデルを訓練せずに新しいタスクへと転移する問題設定へと拡張されています。

この自然言語処理におけるゼロショット転移をタンパク質言語モデルへとあてはめ、モデルを新しいタスクへとフィッティングすることなしで転移を行うことで事前学習モデルの汎化性能を評価します。

筆者らは事前学習済みのMasked Language Model(MLM)をタンパク質の機能活性の順位付けを行うタスクに応用し、野生型のタンパク質に変異が入った場合にどのように機能が変化するのかを予測しました。この場合、タンパク質言語モデルによる事前学習のみが必要であり、変異効果の予測には新たなモデルの訓練は必要ありません。

事前学習モデルを用いた予測とその評価

タンパク質言語モデルを用いて各部位の変異が与える影響を数値的に表現するにはどうすればよいのでしょうか。

筆者らは野生型のアミノ酸配列と変異型のアミノ酸配列を学習済みの事前学習モデルに入力して部位ごとの予測確率を計算し、その対数オッズ比を算出することで変異の影響を数値化しています。対数オッズ比の計算式は以下の通りです。（mt: 変異型, wt: 野生型）

mutation score

このモデルの予測を評価する際にはDeep mutational scanningによる実験データが正解データとして用いられます。Deep mutational scanningでは下の図の左下のようなスコア行列が得られます。スコア行列は各部位の変異が機能活性を向上する方向に働くのか否かを相対的に表現します。

deep mutational scanning

本論文における実験ではMLMによる対数オッズ比と実験的に確かめたスコアの間の順位相関を調べ、事前学習において各タスクに有益な情報が抽出されているか確認する手法をとっています。対数オッズ比の計算は追加の訓練を行わずとも良いため、上述したゼロショット転移が可能となります。

比較手法における変異効果の予測

本論文で提案された手法と従来モデルの比較を行った図を以下に示します。

variant effect prediction

EVMutationやDeep Sequenceではタスクごとに新たなモデルの訓練が必要であるのに対し、ESM-1v(提案手法)では新たな訓練の必要はありません。また、ESM-1vでは推論時にJackHMMerを用いて同じタンパク質ファミリーに属する配列のMultiple Sequence Alignment(MSA)を生成する必要がない点も特徴的です。

モデルの性能

下の表は41個のDeep mutational scanningのデータを用いてモデルの評価を行った結果です。41個のスキャンデータのうち10個を検証データセット、残りをテストデータセットとしています。表中の値は正解データと予測のスピアマン順位相関係数の絶対値を平均したものです。

spearman p

Position Specific Scoring Matrix(PSSM)は各部位を独立したものとして扱うため、アミノ酸残基の相互作用による共進化を考慮できません。EVMutationは共変動モデルを用いることで二次的な相互作用も考慮する手法であり、Deep Sequenceは潜在変数を利用することでアミノ酸残基の高次な相互作用をモデル化する手法です。このように複数のアミノ酸残基の相互依存性を考慮したモデルではより正確に変異の効果を推定できていることがわかります。

MSA Transformerを用いた予測が最も良い性能を記録していますが、ファインチューニングを行ったESM-1v(提案手法)も同程度の性能を記録しています。ESM-1vではアラインメントの情報を推論時に用いていないことを考えると、この性能を出せているのは驚きです。

また、ゼロショットの問題設定におけるESM-1vであってもEVMutationと同程度の性能を出すことに成功しており、タンパク質言語モデルによる事前学習が変異と機能の間の関係性をある程度抽出していることがわかります。

タンパク質言語モデルの既存手法を用いてゼロショット予測の比較を行った結果が以下の表です。表中の☨は異なる５つのモデルの平均、★は異なる５つのモデルのアンサンブルを意味しています。

zero shot comparison

ESM-1vはゼロショット予測において他の既存手法を凌駕していることがわかります。

ESM-1vはESM-1bと同じアーキテクチャを採用してスタンダードなMLMによる事前学習を行っています。ほぼ同じ訓練時の設定でもこのような性能の違いが生まれた原因として筆者らは訓練データの作り方の違いを指摘しています。特に、訓練データを配列類似度に基づいてクラスタリングする際の閾値が下流解析の性能に大きな影響を及ぼすことを確かめています。