タンパク質の機能を化学結合を基に予測し性能を向上させるCNNベースのモデルが登場

medical 2024年09月23日

3つの要点
✔️ タンパク質の機能を予測するモデルとして、従来の手法から精度向上と計算時間を短縮するCNNベースのDeepSS2GOモデルが提案
✔️ タンパク質を構成する配列、および相同性の情報に加えて、化学結合に基づく形状についての情報を統合して学習
✔️ 6つの生物種をデータセットとして行った実験により、様々なドメインでタンパク質の機能を予測するタスクで高い精度を達成

DeepSS2GO: protein function prediction from secondary structure
written by Fu V. Song, Jiaqi Su, Sixing Huang, Neng Zhang, Kaiyue Li, Ming Ni, Maofu Liao
(Submitted on 1 April 2024)
Comments: Published on bioRxiv

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

イントロダクション

タンパク質の機能の予測手法について

あるタンパク質が人にとってどのような機能を持つかを予測することは、生命の過程を理解し、疾病の予防や新薬の開発において極めて重要です。特に、近年ではタンパク質の構成単位であるアミノ酸の配列（これを一次構造といいます）や、タンパク質の立体的な構造（これを三次構造といいます）の形状やサイズに基づいてその機能をアノテーションするモデルの開発が進んでいます。

しかし、一次構造には情報が過剰に含まれており冗長性が見られるため、未知の種が持つタンパク質の機能を正確に予測するうえでは限界があります。また、三次構造は立体に関する情報を学習に反映させる際に膨大な計算コストが必要となり、大規模なデータを用いた解析を行うことが難しいと考えられます。

そこで、本論文の著者はアミノ酸の配列（一次構造）の情報、タンパク質の分子内の化学結合を基に得られる構造上の特徴（これを二次構造といいます）、そしてタンパク質の相同性についての情報を統合して学習を行うモデルであるDeepSS2GOを提案しました。本モデルは、従来のアルゴリズムを上回る予測性能を示すだけでなく、必要な計算量の削減を実現しました。

タンパク質の一次構造，二次構造，三次構造について

タンパク質の一次構造、二次構造、三次構造についての理解を深めるために、この論文ではそれらを日常で目にする建造物の構成要素に例えています。

図中で、建造物の素材である繊維や石材がどのように配置されるかが一次構造に、それらを素材に作られたブロックの形状が二次構造に、そしてブロックから構成される橋や塔などの建造物の構造が三次構造に相当します。

従来のモデルである「model aa」は一次構造（繊維および砂利）の特徴から三次構造を予測します。しかし、一次構造である繊維や砂利の配置のみから、完成物である橋や塔の持つパターンや機能を予測することは難しい場合があります。

対して、本論文の提案モデル「model ss8」は二次構造（ブロックの特徴）から三次構造（橋や塔）を予測します。つまり、二次構造（木や石のブロック）を学習に効果的に用いることで、より正確にタンパク質の機能を予測できると主張しています。

また、本実験ではモデルの訓練を種Aで行い、モデルの予測を種Bで行うことが示されています。このように、異なる種間で訓練と予測を行うことにより、汎用性の高い予測が可能になることが強調されています。

タンパク質の機能予測を行う上での深層学習の活用

タンパク質の機能を予測する手法としては、使用する情報源またはアルゴリズムの違いにより分類を行うことができます。使用する情報源として、一次構造、三次構造、タンパク質同士の相互作用があります。アルゴリズムベースとしては、配列相同性アラインメントという深層学習を用いない手法、および深層学習モデル（自然言語処理モデル）を用いる手法があり、実際には両者の組み合わせが用いられていることが一般的です。

本実験では、タンパク質の機能を表現するにあたって、Gene Ontology（GO）という分子の機能や細胞成分、および生物学的なプロセスを有向グラフで表す表現手法を用いています。タンパク質の持つ各機能は互いに独立しているわけではなく、部分的に類似していることが多いため、それらの関係をグラフで表す手法が用いられているのです。

本論文のモデルにおいては、各機能に関連する単語（下のモデルの構造の図で、GO1やGO2などに相当します）の機能を持っているかを0から1の間の数字で表したスコアを出力としています。

モデルの詳細

モデルの構造

DeepSS2GOのモデルの全体図を上図に示します。

学習時にはまず、事前にフィルタリングを行ったタンパク質の一次構造とそのアノテーションを取得し、データの前処理を行います。なお、本実験では、SwissProtとCAFA3という二つのデータセットからタンパク質の配列とアノテーションを収集し、入力データとして使用しています。

次に、図中の「SPOT1D-LM」というアルゴリズムを用いて、一次構造から二次構造を予測するタスクを実行します。なお、一次構造は20種類の文字から成り、二次構造は8種類の文字から構成されています。

入力の際には一次構造、二次構造それぞれの配列情報を1024行に埋め込み、一次構造の場合は21列、二次構造の場合は9列からなるワンホットマトリックスの形で表します。

一次構造は「Model-aa」で処理され、予測スコア（図中のPred-aa）が出力されます。二次構造は「Model-ss8」で処理され、予測スコア（図中のPred-ss8）が出力されます。

さらに、「Diamond法」というツールを利用して、タンパク質の一次構造の相同性を予測します。この予測によって得られるスコア（図中のPred-bit-score）が出力されます。（なお、Diamond法においては機械学習モデルを使用しておらず、従来の生物情報学で用いられる手法を使っています。）

次に、一次配列、二次配列、Diamond法によって得られる三種の予測スコア（すなわち、Pred-ss8、Pred-aa、Pred-bit-score）を統合します。三種のスコアの統合の際のパラメータは、事前に指定されたパラメータを使用します。

入力されたデータは、様々なカーネルサイズとフィルターを持つ複数の畳み込みニューラルネットワークを通過します。その後、マックスプーリング層によって正規化され、シグモイド関数によって活性化し、出力を0から1の範囲内に収めます。なお、モデルの訓練の際には、過学習を防ぐためにアーリーストッピングを導入しています。

ここで、Kはカーネルの幅を表しており、この実験では様々なKの値を用いて実験を行っています。

実験結果

上図は、モデルの評価指標として精度と再現率の調和平均の最大値であるFmaxをスコアマップの形で表した図となっています。なお本実験では、先述したように訓練データとテストデータを異なる種間で交差させるようにテストを行っています。6つの行および列は、ヒトを含めたさまざまな生物種を表しており、例えば縦軸がHUMAN、横軸がMOUSEである場合は、人のデータをテストデータに、マウスのデータを訓練データに用いることが示されています。

スコアマップは色が濃いほどFmaxのスコアが高い（すなわち、モデル性能が良い）ことを示しています。 AからCの図は一次構造に基づくModel-aaの評価結果を示しています。一方、DからFの図は二次構造に基づくModel-ss8の評価結果を示しています。

具体的には、A、DおよびGは分子の機能について、BおよびE、Hは細胞にどのような成分が含まれているかについて、C、IおよびFは生物学におけるプロセスについてをベースに評価しています。一方で、GからIの図は、二次構造に基づくモデル（Model-ss8）が一次構造に基づくモデル（Model-aa）と比較してどれほどパフォーマンスが向上したかを示しています。

赤い色が濃いほど、二次構造に基づくモデルの性能が良いことが示されています。この実験の結果から、タンパク質の二次構造の情報を利用することで、一次構造情報のみを使用する場合と比較して、タンパク質の機能を予測するタスクの精度の向上を図ることができることが分かりました。

上の表では、前述したモデルの性能評価を行っています。一番下の行には、本モデルであるDeepSS2GOの手法が示されています。

評価指標としては先ほど述べたFmaxに加えて、精度再現率曲線の下の面積を表すAUPR、そして真陽性率と偽陽性率の違いを計算することで、モデルが陽性をどれほど区別することができるかについて評価する指標であるSminを用いています。

AUPRは、不均衡なデータセットを使用する場合に有効な評価指標であり、誤って陽性の場合を分類してしまった際のペナルティが大きくなるため、モデルが少数派である陽性を正確に識別することができるかを評価する指標として用いられています。

一方、Sminは、真陽性率と偽陽性率の差を計算することで、モデルの識別能力を評価する指標となっています。つまり、この値が小さいほど、モデルは陽性と陰性を正確に区別できることを示しています。

これらのFmax、AUPR、Sminなどの指標を用いることで、DeepSS2GOの手法が従来のモデルと比較して高い性能であることを確認することができました。

上の表は、Model-aa、Model-ss8、Diamond法のうち、一部の学習モジュールのみを用いて学習を行った際の結果を示しています。3種の学習モジュールが全て存在する場合に最も良い結果を示しています。

また、2種の学習モジュールを用いた場合にはModel-ss8とDiamondの組み合わせが高い傾向にあり、二次構造を深層学習で予測するモデルと、Diamondという従来の生物情報学的な手法の相性が良いことが分かります。

上の図は、提案手法であるDeepSS2GOが予測した機能予測の結果を示しています。各ボックスには機能を記述するために使用される用語が書かれており、上の位置にあるボックスの用語は、下の位置にあるボックスの用語を含有（同一であるか、または一部分に含む）関係にあります。

各ノードに表示される色付きの円は、異なる予測手法が特定の機能を予測することができたかを示しています（つまり、ボックスの横に色付きの丸が表示されていれば、そのモデルがその機能について予測できたことがわかります）。

青い丸の部分は提案手法（DeepSS2GO）の機能予測の結果を示し、その他の色の丸の部分は既存の手法の機能予測の結果を示しています。この図より、提案手法は図中に示すように、下位の層にある様々な機能をはじめとして、幅広いタンパク質の機能予測を行うことができることが示されています。

まとめ

DeepSS2GOは一次配列の冗長的な情報を減少させたうえで、二次構造の特徴を統合する学習モジュールを導入することにより、タンパク質の機能を予測するうえでのパフォーマンスを向上させることが分かりました。

筆者は、本モデルは二次構造の持つ有効性を向上させるために、古典的な畳み込みニューラルネットワークを導入しましたが、GNNや自己教師あり学習を用いることにより、さらに機能予測モデルの性能を向上を図ることができるのではないかと考察しています。

また、一次構造から二次構造への予測を行う際のアルゴリズムでは、1024の長さを超えるアミノ酸を持つ大きなタンパク質を除外して考えています。将来的には、より長い配列に対する二次構造予測の方法を導入することが重要であると考えられます。

さらに、本モデルは疾患のより広範的な解明や薬剤標的を発見する際のポリペプチドの機能予測にも応用することができるのではないかと考えられています。個人的には、特有のポリペプチド構造を持つか否かの予測をするタスクにおいて、本モデルの応用の可能性があるのではないかと考えました。

この記事に関するカテゴリー

medicalAI: 現在は医療医学を学習しています。

タンパク質の機能を化学結合を基に予測し性能を向上させるCNNベースのモデルが登場

イントロダクション

タンパク質の機能の予測手法について

タンパク質の一次構造，二次構造，三次構造について

タンパク質の機能予測を行う上での深層学習の活用

モデルの詳細

モデルの構造

実験結果

まとめ

【DrHouse】センサー情報と専門知識を活用した診断システム

【DrHouse】センサー情報と専門知識を活用した診断システム

【SA-FedLoRA】フェデレーテッドラーニングの通信コスト削減手法

【SA-FedLoRA】フェデレーテッドラーニングの通信コスト削減手法

RNNベースのBiGRUを発展させたモデルが免疫の応答予測の精度向上を実現！

RNNベースのBiGRUを発展させたモデルが免疫の応答予測の精度向上を ...

【SpliceBERT】生物種の遺伝情報で事前学習を行うBERTモデル！

【SpliceBERT】生物種の遺伝情報で事前学習を行うBERTモデル ...

【IGModel】GNN+Attention機構を応用した手法が創薬における実用性の向上

【IGModel】GNN+Attention機構を応用した手法が創薬に ...

未来の診断手法：AIが拓くCOVID-19の診断革命

未来の診断手法：AIが拓くCOVID-19の診断革命