DeepMindがタンパク質の立体構造を予測する「AlphaFold」を開発

2014年にGoogleに買収された人工知能を研究するDeepMindが、遺伝子配列情報からタンパク質の立体構造を予測する技術「AlphaFold」を開発しました。https://deepmind.com/blog/alphafold/

世界各地の研究グループを集めたタンパク質の折り畳み(フォールディング)を解析するCASP(Critical Assessment of Structure Prediction)コンペティションにAlphaFoldを投入し、アミノ酸の配列からタンパク質の構造を予測するこの大会で、他の参加者を大幅に上回る精度を叩き出し1位を取ったとのことです。CASP主催者は、AlphaFoldについて「計算方法がタンパク質構造を予測する能力の前例のない進歩」と評しました。

このAlphaFoldは、膨大なゲノムデータを用いてタンパク質構造を予測する先行研究から構築されている機械学習アーキテクチャで、これまでのものよりもはるかに正確であり、生物学の中核となる課題の1つに大きな進展をもたらすと言われています。

 

「タンパク質の折り畳み問題」とは?

タンパク質は、生命を維持する上で不可欠な分子です。筋肉を収縮させる、光を感知する、食物をエネルギーに変換するなど、遺伝子と呼ばれるタンパク質のレシピは、私たちのDNAにコードされ、人間の体が行うほぼ全ての機能に関連し、生物の機能はタンパク質の機能で決まると言われています。

タンパク質は20種類存在するL-アミノ酸が鎖状に多数連結した高分子化合物ですが、アミノ酸残基と呼ばれるアミノ酸の単位がどのようにつながっているのかは、一次元的な配列情報でしかDNAに記されていません。すなわち、非周期的なアミノ酸配列という情報が物理化学的な基本原理に従う「ブラックボックス」を通してタンパク質の生物機能という個性を決めているということになります。この問題を解くことがタンパク質の折り畳み問題と呼ばれており、科学者が何十年にわたり、挑戦してきた複雑な課題です。

タンパク質が大きければ大きいほど、モデル化することはより複雑で困難で、タンパク質の全ての構成を列挙する事は宇宙の年齢よりも長くかかるだろうと言われていました。

タンパク質とはアミノ酸が1 次元的に(枝分かれすることなく)つながったひもである。生体中でタンパク質はαへリックスやβシートなどの立体的な構造をとっている。天然のアミノ酸には20 種類あり、これらのアミノ酸がどう並ぶかでタンパク質の安定な立体構造は変わる。アミノ酸の1 次元配列情報からタンパク質の立体構造を理論的に予測する問題を「タンパク質の折りたたみ問題」と言う(図1)。この問題が注目されている理由の1つは、理論物理学の手法でタンパク質の折りたたみという生物の問題を説明できるのか?という基礎科学的な興味である。またもう1つの理由は、タンパク質が間違って折りたたむことにより発病する病気の原因解明と、その治療に役立てられるのではないかという医学的応用に向けたものである。

タンパク質の折り畳み問題がなぜ重要なのか?

通常、タンパク質はエネルギー効率が最も良い形状をしていますが、一方で、正しく折り畳まれていなければ、糖尿病、パーキンソン病、アルツハイマー病などの障害につながる可能性もあります。

つまり、アミノ酸の配列からタンパク質の形状を予測できれば、タンパク質がどのようにして体に害を及ぼすに至るのかがわかり、間違って折りたたまれたことによって引き起こされる疾患(アルツハイマー病、パーキンソン病、糖尿病、等)の原因解明や、その治療への対応、そして生物の構造をより深く理解するために役立ちます。それは、世界の何百万人もの患者の生活の質を改善する革命的なもので、タンパク質の形状を予測する事は科学者にとって重要事項とされています。

AlphaFoldは何を可能にしたのか?

過去50年の研究では低温電子顕微鏡法や核磁気共鳴、X線結晶学によってタンパク質の立体構造を明らかにしていましたが、いずれの方法も構造ごとに試行錯誤が必要で、数千ドルのコストがかかるものでした。そこで代替となるプロセスとしてAIによる予測が注目されたわけです。幸いにもここ数年で遺伝子解析技術のコストが急速に削減した事によって、遺伝子分野のデータを豊富に用意できるようになり、AlphaFoldを開発することに成功しました。

研究チームは過去に解決されたタンパク質の折り畳み問題を使用するのではなく、ターゲットとなる構造のモデリングにゼロから取り掛かかるという難しい問題に焦点を当てました。タンパク質構造が持つ物質的特性を予測した場合に、予測の正確性が高くなることが判明したため、異なる2つの方法を用いて完全なタンパク質構造の予測を行ったとのことです。(下記に2つの方法を記載)

ニューラルネットワークを使用して物性を予測する

上記の2つの方法は、いずれも遺伝子配列からタンパク質の特性を予測するよう訓練されたニューラルネットワークを使うというものです。

まず1つ目は、DeepMindはAlphaFoldを構築するために、アミノ酸のみから3D構造を予測できるまで、何千もの既知のタンパク質をニューラルネットワークで学習しました。

ネットワークが予測する特性は「アミノ酸のペアの距離」と「それらアミノ酸を結ぶ化学結合の間の角度」の2つです。この2つの予測から、どのくらい正確なタンパク質構造を提示できたのかがスコア化され、このスコアが機械学習を用いて最急降下法で最適化されたことにより、高い正確性で予測が可能になったとのことです。

2つ目の方法としては、グラディエント降下 – 機械学習で一般的に使用される少数の段階的な改善を行うための数学的技法を用いてスコアを最適化したとのことです。
この技術は、組み立てられる前に別々に折りたたまれなければならない断片ではなく、タンパク質鎖全体に適用され、予測プロセスの複雑さを軽減しました。

次は何が起こる?

機械学習により、科学者は複雑な問題に対する解決策を見つけることができるという事をこの事例は示しています。ある日AIのブレークスルーが複雑な科学的問題を克服するかもしれません。

病気の治療、環境管理などに定量的な影響を与える前に、さらに多くの作業を行う必要はありますが、その可能性は非常に高いことがわかります。機械学習が科学の世界をどのように進歩させるか楽しみです。

この記事をシェアする