【IGModel】GNN+Attention機構を応用した手法が創薬における実用性の向上
3つの要点
✔️ 体内のタンパク質と薬剤の候補分子の結合強度と結合の形状を同時に予測できる深層学習を用いたモデルであるIGModelが提案
✔️ IGModelは、体内の物理的な相互作用(原子同士がどのように影響を及ぼすか)を学習することによって、従来のモデルと比較して自然界で見られるタンパク質が薬剤候補分子とどのように結合するかの形態を正確に識別する性能が高くなったことを確認
✔️ IGModelは、AlphaFold2によって予測された新しいタンパク質構造を含むデータセットをはじめとする、様々なタイプのデータに対して頑健性があることを確認
A New Paradigm for Applying Deep Learning to Protein-Ligand Interaction Prediction
written by , , , , , , ,
(Submitted on 3 November 2023)
Comments: Published on bioRxiv
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
イントロダクション
創薬分野(治療薬の発見)における深層学習の活用と従来手法の課題
薬剤(特に今回扱う阻害薬という薬剤)は、人にとって悪い働きを行うタンパク質に結合し、そのタンパク質の働きを変えることによって治療の効果を発揮します。そのため、薬剤を設計するにあたっては、これらの結合の親和性や薬理学的な特性を最適化し、タンパク質と薬剤の相互作用を正確に予測することが大切です。
特に近年、深層学習を活用してそれらの相互作用を解析することが推進されています。そのようなモデルの著名な例として、CNNを活用したAtomNet、Kdeep、Pafnucyなどの手法や、二次元畳み込みネットワークを用いて解析を行うOnionNetなどがありました。しかし、これらの手法は実際にタンパク質と薬剤をドッキングする上での成功率が低く、実用性の点で課題がありました。
また、従来のモデルでは、タンパク質と薬剤候補がどのように結合するかを示す指標であるRMSDと、それらの相互作用の強度を示した指標であるpKdを同時に表現することが不可能であるという課題がありました。このことは、薬剤候補について考察を行う際に多角的に情報を活用することができないことを意味しており、改善が期待されていました。
本モデルの新規性
そこで、本論文ではIGModelという新たなモデルが提案されました。本モデルでは、タンパク質とそれに結合する薬剤候補の幾何的な情報を活用することで、従来のモデルと比べて一つのフレームワーク内でRMSD(先述した結合の精度に関連する指標)とpKd(先述した結合の強度に関する指標)を同時に測定することを可能としました。IGModelは、CASF-2016ベンチマークやPDBbind-CrossDocked-Core、DISCOセット、AlphaFold2というツールによって生成された構造を含むデータセットにおいて、薬剤のドッキングの成功率を上げ、従来のモデルと比較して実用性が向上したことが示されました。
モデルの詳細
モデルの全体像
IGModelの全体像は、タンパク質と薬剤候補、さらにその結合部位を入力とし、先述した結合についての二つの指標であるRMSDとpKdを出力するという仕組みになっています。IGModelは、薬剤とタンパク質の相互作用に関連する特徴を潜在空間に落とし込むエンコーダーブロックと、RMSDデコーダー、pKdデコーダーからなるデコーダーブロックから構成されています。
エンコーダーブロックでは入力したデータを基に潜在空間に埋め込みを行いますが、タンパク質と薬剤候補の相互作用をより良くモデルに反映させるために後述するEdgeGAT層が導入されていることが特徴として挙げられます。デコーダーブロックでは、潜在空間の情報を用いて二種類の指標それぞれを出力する二つの学習モジュールを用いて学習を行っています。
グラフ構造の詳細
本論文において用いられるグラフ構造は、タンパク質を構成する原子と薬剤候補を構成する原子についての情報をノードとして、ノード間の相互作用についての情報をエッジとして表しています。なお、ノードはタンパク質を構成する原子についての情報を表すVRというノードと、薬剤候補を構成する原子についての情報を表すVLという二種類のノードに大別されます。なお、ノードはVRとVLで異なる情報が埋め込まれています。
具体的に、ノードやエッジにどのような情報が埋め込まれているかを以下に説明します。VRでは、ノードは薬剤候補の構成元素(例えば窒素(N)、炭素(C)などのワンホットベクトル化したもの)についての情報が埋め込まれています。一方、VLでは、タンパク質を構成するアミノ酸がどの種類であるか、タンパク質の構成元素、タンパク質の電荷の大きさ、芳香族か否か、α炭素までの距離などといったような、タンパク質の化学的な性質などの情報が埋め込まれています。
一方、エッジは結合の種類(単結合か二重結合か)、環状構造があるか、立体配置、その結合が共役であるかなど、主に原子同士を結びつける化学的な結合についての情報が埋め込まれています。さらに、上図のBに示すようなタンパク質と薬剤候補についての角度についての情報も埋め込みが行われています。
エンコーダの詳細
エンコーダーの部分では二種類のグラフ構造を入力としており、一つ目(図Aの左上に位置するグラフ)はタンパク質の情報、薬剤候補の情報、タンパク質と薬剤候補が結合する部分の相互関係を、二つ目(図Aの左下に位置するグラフ)は結合する部分の相互関係のみを立体構造に関する情報や物理化学の観点を適用しつつグラフ構造で表記しています。
エンコーダのEdgeGAT層においては、入力が行われると、ノードとエッジの更新が行われます。EdgeGAT層とは、グラフニューラルネットワークの一種であり、ノードの特徴とその周辺のノードの特徴を集約する際にアテンションの機構を用いて情報を統合するグラフアテンションネットワークの考え方をさらに発展させたモデルとなっています。
EdgeGAT層は、ノードとエッジの特徴を入力に対して、特徴表現にエッジ情報を組み込むような機構を持ちます。そのため、ノードとエッジの特徴を並行して相互に反復処理を行うことができます。そのため、結果的に、ノード間の関係や、エッジそれ自体の属性や特徴を適切に活用することができ、これを用いない場合と比較して相互作用をより適切に考えることができると考えられます。
なお、このモデルでは更新は一度に二回行われますが、二回の更新間ではメッセージパッシングラウンドという過程を導入しています。メッセージパッシングラウンドとは、種類の異なる二つのノード同士で情報を伝達させることを言います。
詳細の仕組みは省略しますが、一回目の更新時では、先ほどの二種類のうちVLとVRについてそれぞれの更新を行った後、メッセージパッシングラウンドの過程ではVL同士、VR同士、およびVLとVR同士の情報伝達を行っています。このように、更新の過程の間に情報伝達の過程を経ることによって、タンパク質と薬剤候補についての相互作用をより正確に表すことができるようになります。
このようにメッセージパッシングラウンドの過程を挟んで二度の更新が行われた後に、タンパク質と薬剤候補、およびそれらの結合に関する情報の計三つの1024次元ベクトルへの埋め込みを行います。その後、得た三つの特徴ベクトルの合算が行われます。これがエンコーダ部分の出力、およびデコーダ部分の入力となります。
デコーダの詳細
デコーダーの部分は、二つの学習モジュールを有しており、それぞれのモジュールはgMLP層と線形層からなります。デコーダーでは、エンコーダから得られる出力を、二つの学習モジュールを通すことによって得られる二つの128次元ベクトルに変換しています。
gMLP層とはMLPを拡張した学習層であり、自然言語処理モデルにおいて近年利用されている手法です。この層は、アテンション機構を使わずにTransformerのようなパフォーマンスを達成することを可能にします。
gMLPの特徴として、ある特定の情報を強調したり抑制したりする役割を担うゲート機構が存在するということが挙げられます。これにより、それぞれの位置の特徴が次の層にどのように伝えられるかを動的に決定できるようになるため、効果的な学習を行えるようになると考えられます。
本論文では、デコーダーにおいてそれぞれの二種類のモジュールによって得られる表現を元に、RMSDとpKdを出力します。なお、RMSDの変化をpKdに反映できるように、デコーダー部分にある下向きの矢印に示すように情報の統合を行っています。またpKdデコーダーでは、その値の減衰を示す減衰係数Wを出力しています。
実験結果
上図は、CASF2016というデータセットを用いて、タンパク質と薬剤候補の結合の予測について実験を行った結果を示しています。Aではモデルの予測と実際の実験データとの間の相関をピアソン相関測定を用いて、Bではリガンドとしての適切さをランク付けした結果についてスピアマン相関測定を用いて解析を行っています。
なお、ピアソン相関測定とは、二変数間の線形関係の強さと方向を測定する手法、スピアマン相関測定とは各変数の値をランク(順位)に基づいて変数間の相関を求める測定手法です。また、CおよびDはモデルのドッキング成功率を比較したものを示しています。これらのAからDのグラフより、IGModelが他のモデルと比較して性能が高いことが分かりました。
この図はIGModelを用いた場合のTop1成功率(左図)、TopN成功率(右図)を示しています。Top1成功率とは、あるタンパク質にとって、予測した可能性が最も高い候補が実際と一致する確率を示します。一方、TopN成功率とは、モデルが薬剤候補として予測を行った候補の中で、上位N個のいずれか一つが実際と一致する確率を示します。TopN成功率は、有効な候補が複数存在する可能性がある場合などに用いられています。
なお、Surflex、Glide、Vinaは、今回の実験において用いられているドッキングソフトウェアを指します。本実験により、Top1成功率とTopN成功率の両方の指標において、IGModelは従来モデルの予測精度を大きく上回ることが分かりました。
上図A~Dでは、EdgeGAT層により出力された潜在空間への埋め込み表現について、実際のRMSDをAに、実際のpKdをCに、予測されたRMSDをBに、予測されたpKdをDとして色分けしており、主成分分析を行った結果得られる第一主成分を横軸に、第二主成分を縦軸に表しています。
この図より、RMSDやpKdが変化する(つまり、結合を予測する性能や結合の強度が変化する)につれて、層のようなパターンを形成することが分かります。例えば、図A~図Dでは横軸(第一主成分)が大きくなるにつれて、その色(精度を表すRMSD)が紫の部分から緑の部分に徐々に変わっていくことが視覚的に確認できると思います。
このように、エンコードされた潜在空間を可視化することで、精度と結合強度について直観的な表現が高い視認性での考察が可能となりました。
まとめ
本論文では、タンパク質と薬剤候補の相互作用を予測するための新しいフレームワークであるIGModelを提案しました。深層学習を活用した本モデルを用いることによって、薬剤候補の結合する場所のRMSDと結合強度pKdを同時に予測することができるようになりました。
なお、現在はRMSDと結合強度の減衰する際の重みを手動で行っていますが、今後は学習に先だってこれらの二つの関係を学習する機構などを導入することを通じてさらなる改善を行うことができるのではないかと考えられています。記事の筆者は、24年5月に発表されたばかりのAlphaFold3を用いた場合性能にどのような違いが生じるかについてに興味を持っています。
この記事に関するカテゴリー