最新AI論文をキャッチアップ

【DrugLLM】大規模言語モデルを活用したFew-Shotによる分子生成

【DrugLLM】大規模言語モデルを活用したFew-Shotによる分子生成

Large language models

3つの要点
✔️ 大規模言語モデルを使用し、少数の修正サンプルから新しい分子を生成するフューショットによる分子最適化を初めて実現
✔️ 分子表現にGMR(Group-based Molecular Representation)を使用し、SMILESの課題を克服し、効率的な分子生成を実現

✔️ 既存の分子生成モデルを大幅に上回る性能を示す一方で、ハードウェアの制約やゼロショット最適化の初期段階など、改善点も示唆

DrugLLM: Open Large Language Model for Few-shot Molecule Generation
written by Xianggen Liu, Yan Guo, Haoran Li, Jin Liu, Shudong Huang, Bowen Ke, Jiancheng Lv
(Submitted on 7 May 2024)
Comments: 17 pages, 3 figures

Subjects: Biomolecules (q-bio.BM); Computation and Language (cs.CL); Machine Learning (cs.LG)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

小分子は、特定の生物学的なターゲットに結合し、その機能を調節する能力があり、創薬分野において非常に重要な役割を果たします。過去10年間の米国食品医薬品局(FDA)の承認記録によると、市場に承認された薬のうち76%は小分子によるものが占めています。小分子は、比較的簡単に合成でき、良好な生物学的利用能(バイオアベイラビリティ)を持つため、意図したターゲットに到達しやすいことが特長です。しかし、理想的な特性を持つ分子を設計するのは非常に難しく、多くのリソースと時間を消費します。例えば、有効な薬を見つけるには、9年から12年もの薬の開発プロセスが必要であり、数十億ドルが必要と言われています。

新しい分子の探索範囲は非常に広大で、最大で1060個もの合成可能な薬物分子が存在すると言われています。このため、化学者が生物学的なターゲットと相互作用する分子を特定するのは大きな課題となっています。現代の技術では、実験室で106以上の分子をテストすることができますが、それ以上の大規模な実験には膨大な費用がかかり、現実的ではありません。そこで、計算ツールを用いて、探索範囲を絞り込むことが必要となります。

バーチャルスクリーニングは、そのようなツールの一つで、既存の数百万の分子やバーチャル分子の中から有力な分子を特定する戦ことができます。しかし、ハイスループットスクリーニングやバーチャルスクリーニングは、既知の合成可能な分子のみを対象とするため、新しい分子を生成することはできません。

この広大な分子候補を探索する代替手段として、デノボデザインは完全に新規で独自の分子を生成する能力を示します。従来のデノボデザインは、受容体構造やリガンド構造に基づいて新しい分子を生成しますが、最近ではディープラーニングや強化学習が期待されています。特に、生成および予測ニューラルネットワークを統合した手法などが新しい分子生成に利用されています。

これらの新しい技術が進展する中、フューショットによる分子生成の手法はまだ十分に研究がされていません。フューショットによる分子生成は、限られた分子のサンプルをもとに期待される特性を持つ新しい分子を生成することを目指します。

現在のデノボデザインの多くは、学習に数千のデータを必要としますが、創薬では、データが不足していることが一般的です。したがって、フューショットで生成を実行できる能力は、デノボデザイン技術の進歩にとって非常に重要です。

大規模言語モデルは、特にフューショット学習問題において自然言語処理で大きな進歩を遂げていますが、生物学および化学の言語を扱う際にはまだ課題があります。そこで、この論文では、創薬のための大規模言語モデルである「DrugLLM」を提案しています。

DrugLLMでは、GMR(Group-based Molecular Representation)を使用して分子を表現し、SMILESに内在する問題を解決します。GMRは、分子のトポロジー構造を構築するために構造グループを使用し、それらを線形シーケンスに変換します。また、特定の分子特性に従って修飾シーケンスを整理します。修飾履歴にもとづいて、次の分子を継続的に予測することで、DrugLLMは分子構造と特性との関係を学習することができます。DrugLLMはフューショットによる分子生成のための初の大規模言語モデルです。

データ収集と準備

DrugLLMを学習し、解析するために、「ZINC」と「ChEMBL」のデータセットを使用して大規模なデータセットを構築しています。ZINCは、購入可能な化合物がドッキング用の3Dフォーマットで230万以上含まれる無料のデータベースです。このデータベースからドラッグライクな分子(医薬品によく見られる物理化学的性質や構造的特徴を持つ分子)をフィルタリングし、450万の分子を取得しています。ChEMBLは、生物活性化合物の特性を網羅した包括的なリポジトリであり、Webリソースクライアントを使用して生物活性データを収集しています。Stanleyら(2021)の前処理の方法を参考に、ドラッグライクではない化合物を除外し、標準的なクリーニングとカノニカル化を適用しています。また、すべての分子はSMILES文字列で表され、特定の特性でラベル付けされています。

特性の比較を容易にするため、実数値で表される特性カテゴリーのみを考慮しています。これにより、各表が同一の特性で測定された数百の分子を含む数千の表形式のデータで構成される、大規模なデータセットを得ることができます。収集したデータをもとに、それらを意味のあるテキスト文や段落に変換しています。

例えば、類似構造を持つ2つの分子間の修飾を一文とし、複数の修飾ケースを一段落としています。そして、同じ段落内の修飾は、同じ特性変化を記述するものとしています。最初の2つの修飾ケースが溶解性の向上を示す場合、この段落の他の文もすべて溶解性の向上に関するものとしています。

この規定は、ヒューリスティックアルゴリズムを用いて実現しています。まず、特性を持つ分子の集合をもとにランダムに選択したクラスタリングのセンターを使用して分子をクラスタリングしています。分子とセンターの類似性が0.6を超える場合、その分子はそのセンターにクラスタリングされます。クラスタリングのセンターの数は、集合内のすべての分子が分類されるまで動的に増加します。 

さらに、単一の特性に対する分子の修飾に加え、複数の特性の組み合わせも考慮しています。これらは主にPythonスクリプトで計算できるシンプルな分子特性に関係しています。例えば、LogP、トポロジカル極性表面積(TPSA)、そして、それらの組み合わせを学習セットに含めています。合計で、2500万以上の修飾段落と、20億個の分子を収集し、学習データセットを構築しています。このデータセットには、1万以上の異なる分子特性、活動、組成が含まれています。SMILES分子に加え、各段落には分子構造と特性の意味を関連付けるための特性最適化の説明も追加されています。

グループベースの分子表現(GMR)

分子表現には、GMR(Group-based Molecular Representation)というフレームワークを利用しています。これは、分子を構造グループに分解し、その接続情報を記録することで、SMILES文字列をグループベースで再構築し、分子情報の解釈性を改善することを目的としています。

最初に、ChEMBLデータベースを利用して分子のデータを収集します。そして、SMILES表現を用いて、分子内の環構造に関する情報を抽出し、交差する環を統合して特定の構造グループを識別します。環以外の部分については、すべてのC-C結合を切断し、残りの分子断片を独立した構造グループとして扱います。これにより、各グループにユニークな文字列識別子を割り当てる包括的な辞書を作成することができます。

次に、個々の分子のSMILES文字列を複数の構造単位に分割します。幅優先探索のアルゴリズムを用いて、構造グループの除去後に分子が依然として接続されているかを確認し、その接続点の2つの原子を記録します。これにより、原子の特徴が形成されます。各構造グループと分割後の分子断片にSMILES正規化を行い、辞書に対応する文字列を符号化文字列に統合します。これを繰り返して、最終的に正確な分子符号化を生成します。 

符号化された分子断片をもとに、記録された接続情報を参照して各構造グループを正しい位置に再結合します。このプロセスを繰り返し、すべての構造グループが正しくスプライスされるまで行い、最終的に元の分子SMILESを復号化します。これにより、分子情報の完全性と可逆性が確保されるよう工夫されています。

これにより、分子の詳細な構造情報を効果的に管理し、解析の精度を向上させることができます。 

実験と結果

この論文の中心は、分子構造とそれに対応する化学的および生物学的活性の関係を捉えることができる大規模言語モデルを学習することです。ChatGPTやLLaMAがインターネット上の膨大なテキストデータを用いて学習され、DrugGPTがSMILESを分子表現として使用しているのに対して、DrugLLMはグループベースの分子表現(GMR)を主要な言語表現として採用しています。このGMRは、構造グループを用いて分子構造を表現することで、SMILES表記における3つの主要な課題を克服することができます

1つ目は、トークンの多さです。SMILES形式では各文字が個別のトークンと見なされるため、トークンの数が膨大になり、学習時に多大な計算資源を消費します。2つ目は、環状構造の複雑さです。分子内の環状構造の表現は特に複雑であり、モデルの学習を難しくしています。3つ目は、構造感度です。分子の構造にわずかな変化があっても、それに対応するSMILES表現に大きな差異が生じることがあります。

下図(再掲)に示すように、GMRフレームワークは独自の文字列識別子を用いて異なる構造グループを表現し、これらの識別子はスラッシュで囲まれた数値位置データで連結されます。GMRを使用することで、モデルは構造グループを単位として分子文字列を認識でき、入力および出力トークンの数を減らすことができます。また、GMRは環状構造を統合して取り除くことで、分子の組み立てロジックを単純化し、モデル認識の難易度を下げることができます。さらに、SMILES文字列のわずかな構造変化による差異を最小限に抑えることができます。

DrugLLMを学習するために、下図のように、分子修正から成る文や段落を学習グデータとして構築しています。具体的には、DrugLLMは類似した構造を持つ二つの分子間の修正を文として見なし、そのような修正の一連を段落として扱います。段落内の分子修正は同一の特性を特徴付ける必要があり、例えば、最初の3つの分子修正サンプルが水素結合受容体の数の増加を説明している場合、その段落の後続の文も受容体数の増加について述べることが期待されます。このようにして段落の内容が集中し、DrugLLMは前のコンテキストに基づいて次のトークンを自己回帰的に予測できるようになります。さらに、各段落は多様な分子特性を包含し、それぞれの段落は独自の分子特性に取り組むため、DrugLLMにはコンテキスト内学習の能力が求められます。

しかし、関連するデータセットはほとんど利用できません。この論文では、ZINCデータベースとChEMBLプラットフォームから分子データセットの表形式を収集し、それらを対応する文や段落に変換しています。合計で25,000,000以上の修正段落と200,000,000の分子を学習データセットとして収集しています。

このデータセットには、水素結合受容体の数やトポロジカル極性表面積(TPSA)など、10,000以上の異なる分子特性や活性が含まれています。最新の大規模言語モデルの事前学習にもとづいて、DrugLLMはTransformerアーキテクチャを利用しています。また、LLama 7Bのパラメータを採用し、頻繁に使用されるSMILESトークンを導入して語彙の拡張を行っています。これらのトークンはバイト対符号化(Sennrich et al., 2016)で分割されます。DrugLLMはAdamWオプティマイザを使用して、8つのNVIDIA RTX 3090 GPUで6週間学習しています。機械学習の観点から、段落はフューショットによる分子生成プロセスとして機能します。したがって、学習されたDrugLLMは、さらにファインチューニングすることなく、フューショットによる分子生成を行うことができます。

DrugLLMは、フューショット学習を使用して、物理化学的特性の最適化を実現するモデルです。下図に示すように、K-ショット学習では、モデルにK組の修正例とベンチマーク分子を提供します。モデルの目標は、ベンチマークの分子と構造的な類似性を保ちながら、修正サンプルに基づいて特性が向上した新しい分子を生成することです。入力トークンの制限により、分子最適化の例は最大で9組に制限されています。


生成された分子とベンチマークの分子の構造的類似性を視覚化するために、UMAP(Uniform Manifold Approximation and Projection)法を用いてチャートを作成しています。生成された分子(左側)と元の分子(右側)の分布は一致しており、この分布の類似性と生成された分子のLogP特性の顕著な向上は、モデルの高い性能を示しています。


DrugLLMのフューショットによる分子生成能力を評価するために、LogP(水-オクタノール分配係数)、溶解度、合成アクセス性、トポロジカル極性表面積(TPSA)を含む4つの物理化学的特性をテストタスクとして選んでいます。これらの特性は機械学習ベースのスクリプトで正確に推定できるため、分子生成モデルの評価に広く使用されています。

比較のために、接合樹状変分オートエンコーダー(JTVAE)、変分接合樹状ニューラルネットワーク(VJTNN)、スキャフォールドベースの分子生成器(MoLeR)を使用しています。また、JTVAEの潜在空間に基づくランダム生成コントロールも含めています。生成された分子の品質は、成功率と分子の類似性に基づいて評価されています。成功率は、生成された分子が修正サンプルの規則に従う割合を表しています。生成バイアスを避けるために、入力コンテキスト(言語モデルのプロンプト)は特性の増減をバランス良く記述しています。

下図に示すように、元のデータと生成されたデータのいくつかの主要な特性(LogP、溶解度、合成アクセス性、TPSA)の分布を示します。これらの分布はカーネル密度推定(KDE)を用いて視覚化されています。これにより、モデルの有効性がさらに証明されました。

また下図に示すように、LogP値に関する数ショット生成のパフォーマンスを報告します。JTVAE、VJTNN、およびMoLeRの3つのベースラインの分子生成モデルは、成功率が約50%であり、ランダム生成と同様でした。しかし、DrugLLMはフューショットによる分子生成において進行的な向上を示し、ショット数が増加するにつれて生成された分子の正確性が75%に向上しました。分子溶解度、合成アクセス性、TPSAに関する性能比較も同様に一貫しています。


修正が少ない分子(高い類似性)を最適化するのは通常困難ですが、DrugLLMは生成類似性が増加しても高い成功率を維持しており、フューショットによる生成における優れた性能を示しています。さらに、DrugLLM-GMRはDrugLLM-SMILESをわずかに上回り、大規模モデルの学習におけるGMRの利点を示しています。

さらに、上述の通り、DrugLLMが、物理化学的特性において優れたフューショットによる生成能力を示したことから、次に分子の生物活性におけるDrugLLMの有効性を検証しています。生物活性は物理化学的特性よりもさらに複雑で難しい課題とされています。DrugLLMが生成する分子は通常、新規であり、ChEMBLデータベースに記録されていません。物理化学的特性とは異なり、生物活性は化学的または物理的な規則では推定が難しくなります。さらに、実験室での実験には多大な時間と費用がかかるため、大規模な分子評価が困難です。そこで、この論文では、メッセージパッシングを活用して生物活性を予測しています。

ChEMBLデータベースを利用してDrugLLMのデータセットを構築する前に、全ての生物活性をスキャンし、比較的十分なサンプル数(N ≥ 800)と正確な特性予測ができるもの(Pearson相関係数 r ≥ 0.75)を選択しています。最終的に10の活動が選ばれ、これらは学習データから除外されています。予測モデルのPearson相関が0.75を超えるため、統計的に実際の評価とよく相関しています。

下表に示すように、3つの生成ベースラインはランダム生成と比較して意味のある改善を達成できていません。これは、これらの分子生成モデルが限られたサンプルに基づく修正規則をうまく捉えることができていないことを示しています。

一方、DrugLLMはほとんどのテスト特性において他のベースラインを大幅に上回る性能を示しています。特に、DrugLLMはRho関連プロテインキナーゼ1に結合する適切な分子を76%の成功率で生成することができます。これらのテスト特性はDrugLLMの学習中には観察されていません。これらの結果は、DrugLLMが限られた数の例から未知の分子特性に対する分子修正の内在する規則を見つけ出す能力を持っていることを示しています。 

まとめ

この論文では、フューショットによる分子最適化という新しい計算タスクに取り組んでいます。このタスクは、興味のある分子をもとに、少数の修正サンプルから新しい分子を生成するものです。これまで様々なフューショット学習タスクが提案されてきましたが、フューショットによる分子生成に関する研究はほとんどありませんでした。フューショットによる分子最適化には、モデルが少数のサンプルから抽象的な規則を学び、新しい分子に適用する能力が求められます。現在の方法では、ChatGPTや他の分子生成モデルはこのタスクをうまく達成できていませんが、この論文が提案している「DrugLLM」では優れた性能を示しました。

DrugLLMは、大量の小分子と生物学的なデータをもとに構築された大規模言語モデルです。最近の大規模言語モデルであるChatGPTmAlpaca、ChatGLMは、一般的な自然言語生成において優れた能力を持っていますが、生物学や薬学に関する知識が不足しています。また、生物学や医学に特化した大規模言語モデルも存在しますが、これらは依然として従来の学習戦略を利用していて、生物学や化学の言語をどのように理解し、フューショット学習をどのように行うかという課題は解決されていません。この論文では、DrugLLMがGMRを使用して、文脈に応じて反復的に分子修正する新しい方法を提案しています。

しかし、この手法にはいくつかの制約もあります。まず、DrugLLMはハードウェアの制約により、最大9ショットの分子修正しかサポートしていません。また、DrugLLMのゼロショットによる分子最適化はまだ初期段階であり、改善が必要です。現在のDrugLLMは、既知の2つの分子特性に基づいて分子を最適化することしかできません。さらに、現在使用されているGMRは、特定の状況下で複雑な分子を表現するのが難しく、標準化の手法も不足しています。

著者らは、この「DrugLLM」はフューショットによる分子生成と最適化のための大規模言語モデルとした初めての試みとしています。分子特性と生物学的活性に関連するデータをもとに、大規模なテキストコーパスを構築し、DrugLLMを自己回帰的に学習します。DrugLLMの優れた性能は、DrugLLMが薬分子の発見における強力な計算ツールとしての大きな潜在能力を持つことを示唆しています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする