ChemChat：大規模言語モデルと化学の未来、外部ツールとチャットボットとの融合による可能性

Large language models 2024年04月23日

3つの要点
✔️ 大規模言語モデルによる化学分野の革新：大規模言語モデルは、化学言語を扱い、分子設計・探索プロセスを加速。優れた成果を達成。
✔️ 分子発見の未来への展望：大規模言語モデルに化学向けツールを連携すること活用した先進的な手法を導入し、分子発見のプロセスが加速し、分子合成にかかるコストと時間の制約を緩和。
✔️ 化学ツールとチャットボットの融合：大規模言語モデルを中心にしたチャットボットインターフェースにより、化学データとの対話が変革され、化学者がプログラミングタスクを簡単に実行可能。

Language models in molecular discovery
written by Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born
(Submitted on 28 Sep 2023)
Subjects: Chemical Physics (physics.chem-ph); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Biomolecules (q-bio.BM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、急速に技術革新が進み、生化学プロセスへの理解を根本から変えている変化が起こっている一方で、化学分野は依然として新しい製品を市場に投入するために、「10年」と「3,000億円」という莫大な時間と費用を費やしています。この背景には、実験室レベルの実験での失敗率の高さ、化学の探索領域の広さ、予期せぬ発見など運の要素の強さにあります。様々な理論の上に、分子を設計し、合成経路を設計し、時間をかけて合成したものの、思うような機能が得られないというのはよくあります。そして、その実験の繰り返しの結果、偶然とも言える発見があり、医薬品など新しい製品が生まれています。

そのような中、大規模言語モデルが登場し、人間のようにテキストを理解し、生成することができる技術が生まれ、様々な分野で成功を収めています。化学分野においても、その可能性を秘めています。分子も言語として表現する方法があり、これを活用することで分子設計・探索プロセスを加速する可能性を秘めています。近年、大規模言語モデルは、タンパク質の折りたたみから小分子、ペプチド、ポリマーの設計に至るまで、化学言語を扱得ことで優れた成果を示しています。

しかし、大規模言語モデルとは一体何なのでしょうか。簡単に言うと、これらはテキストの断片を理解し、それに基づいて連続的に推論を行う機械学習モデルです。これらのモデルは、単語のシーケンス上での確率分布の学習を通じて、テキスト生成や言語翻訳といったタスクを可能にします。

なぜ化学分野において言語モデルが有用なのでしょうか。化学構造の表現を学習することで、これらのモデルは化学空間の探索を容易にし、特定の機能特性を持った分子を設計することができるようになります。さらに、自然言語と科学言語のギャップを埋めることで、化学者が自然言語で設計したい分子機能を伝え、対話を通して、分子構造やその合成方法を見つけることができるようになる可能性があります。

この論文では、分子の発見（分子設計・探索）を加速するための大規模言語モデルの有用性に焦点を当てています。従来の科学的発見方法から始めて、分子生成モデルと分子特性予測モデルの組み合わせ、そして科学言語のモデリングに役立つツールとライブラリを紹介しています。最後に、チャットボットを介して自然言語モデルを、分子発見プロセスと組み合わせることで、将来の分子設計がどのように変わるかを展望しています。

分子の発見サイクルを早めることは、特に創薬分野など人間の生活に関わる重要課題に大きく貢献することが期待されます。

今後の分子発見手法

分子発見は、広大な範囲でさまざまな特性を最適化する必要があり、従来の科学的手法に大きな挑戦をもたらしています。分子の設計・製造・テスト・分析（DMTA）のサイクルにおいては、分子の合成にかかる費用と時間の制約が研究の進展を妨げるボトルネックとなっています。従来の方法は、医薬化学者による「分子仮説」に依存しているため、網羅性がなく、世界的な課題への対応が遅れがちです。分子の発見プロセスを効率化は長年強く求められています。ここでの主な課題は、実験室レベルの実験に基づく、これらの「分子仮説」の評価速度と品質向上です。

深層生成モデルは、分子発見の仮説立てや設計を速めるための有望な手段として注目を集めています。しかし、これらの進んだ分子生成モデルであっても、仮説を効果的にテストするためには、大規模なバーチャルスクリーニングを行う効率的な手法が必要です。加速された分子発見サイクルは、DMTAサイクルに検証ループを加えることで、多くの仮説を迅速かつ低コストで評価することが可能になります。この新しいループにより、設計フェーズの生成モデルが強化され、実際に合成や物理実験に進むのは有望な仮説だけであることが確実になります。

分子表現

分子表現は、モデルが活用できる情報を定義します。この文脈での「表現」とは、分子の構造や特性を表す方法のことを指しています。化学言語モデル（CLM）の進歩に伴い、分子のテキストベースの表現が注目されています。

SMILESは、分子を記述するためのテキスト表現で、原子、結合、分岐、芳香族性などを特定の文字列で表します。この表現法は、分子を簡単にトークン化（分割）できるため、化学言語モデルでの利用に適しています。しかし、SMILESは非一意的であり、同一分子が複数の異なるSMILES文字列で表されることがあります。これは、データ拡張や分子特性予測、分子生成において利用されることがあります。一方で、SMILESは無効な表現を生成する可能性もあり、この問題を回避するために、さまざまな処理や正規化が行われます。

SMILESの代替として開発されたSELFIESは、無効な分子表現を生成しないように設計されています。結合価の妥当性を保証するルールに基づいており、開いた枝や環を避けるために枝の長さや環のサイズを保存します。これにより、分子生成時に常に有効な表現が得られますが、有用な分子を表現するには短すぎる場合があります。

IUPACによって導入されたInChI（国際化学識別子）は、分子の構造情報を階層的にエンコードする文字列です。大きな分子の場合、この文字列は長く複雑になることがあります。これを解決するために、InChIKeyというハッシュが開発され、検索や取得を容易にしています。ただし、InChIは化学言語モデルでの使用があまり一般的ではありません。

これらのテキストベースの分子表現は、化学言語モデルの訓練において重要な役割を果たします。モデルはこれらの表現から分子の特性や構造を学習し、新しい分子の生成や既存分子の特性予測に利用できます。各表現法には独自の利点と制約があり、目的に応じて適切なものを選択する必要があります。

生成プロセス

生成モデリングは、新しいサンプルの生成を目的としてデータの根本的な分布を学ぶプロセスであり、薬剤発見の効率化に重要な役割を果たしています。この技術には、望ましい特性を持つ新しいサンプルを生み出すために特定のデータ属性やラベルを活用する条件付き生成モデルと、学習データと類似した分子を生成する無条件モデルの2つがあります。特に、条件付き生成モデルは目標指向の仮説設計を容易にし、薬剤開発の効率を大きく向上させます。

下図は条件付き分子生成を言語モデルを使用して行うプロセスの一例です。

このプロセスは、マルチモーダルデータの収集および処理から始まり、その後、固定サイズの潜在表現に圧縮されます。これらの表現はその後、分子生成モデルに渡されます。生成された分子は、訓練中にフィードバックループを通じて生成モデルにリンクされたin-silico（計算上の）特性予測を受けます。in-silicoモデルは、報酬機能を使用して、特性またはタスク駆動の分子を生成モデルに指示します。推論ステージでは、最適化されたモデルによって生成された候補分子が、望ましいタスクのためのその効果を決定するために、実験室での合成およびその後の実験的検証のワークフローを続けます。

科学的言語モデリングのための先進ソフトウェアツールの紹介

科学界におけるオープンソースソフトウェアの進化は、特に化学分野で革新的な変化をもたらしています。これは、新しい研究手法の開発、科学的な成果の再現性の向上など様々な形で貢献しています。ここでは、分子発見に有用なソフトウェアツールに焦点を当てています。Pythonパッケージやクラウドベースのウェブアプリケーションなど様々なものがあります。

まず自然言語処理モデルです。Transformer技術の成功は自然言語処理の分野におけるブレークスルーとして言われており、HuggingFaceが開発したtransformersライブラリの人気によってさらに注目を集めています。これらの技術は、コンピュータビジョン、強化学習、タンパク質の構造予測など、さまざまな分野で応用されています。HuggingFaceは、言語モデルを提供し、新しいモデルの実装からファインチューニングや推論に利用可能な事前学習済みモデルまで提供しています。これらのモデルには、分子特性予測やテキストベースの分子生成など、ライフサイエンス分野に特化したものもあります。

GT4SD（Generative Toolkit for Scientific Discovery）は、科学的発見を効率化するために設計されたツールキットです。これは、分子発見アプリケーションを含む幅広い用途で、言語モデルを活用するためのサポートを提供しています。GT4SDは、最先端の生成モデルを使用、学習、ファインチューニングし、共有することができます。このツールキットは、拡散モデルやグラフ生成モデルを含む、さまざまな技術を利用可能にし、研究者が有機材料の設計などのプロジェクトを効率的に進めることができるようになります。GT4SDは、調和されたインターフェイスと、生成モデルを簡単に実行・学習できるコマンドラインツールを提供し、学習されたモデルをクラウド上で共有するためのモデルハブを持っています。また、小分子、タンパク質、結晶などの分野において、多くの特性予測エンドポイントと事前学習されたアルゴリズムがあり、無料のウェブアプリケーションや教育用のノートブックも提供しています。

化学反応の予測と合成ルートの特定は、化学の研究において重要な課題です。この分野での最先端技術は、IBMのRXN for Chemistryプラットフォームで提供されている「rxn4chemistry」ライブラリです。このツールは、自然言語処理の技術を化学領域に応用し、原子、分子、反応をそれぞれ文字、単語、文に見立てることで、化学反応をシーケンス変換問題として扱います。

Molecular Transformer（MT）は、rxn4chemistryの核となるアーキテクチャで、オートリグレッシブエンコーダーデコーダーモデルを採用しています。このモデルは、テンプレートを用いずにデータ駆動型で化学反応の結果を予測し、立体化学を直接表現できる点で他の多くのモデルと一線を画します。これにより、領域選択性や立体選択性反応にも高い性能を発揮します。MTは、単一ステップのレトロシンセシスから、酵素反応に至るまで、幅広い応用が可能です。

また、有機化学の自動化に向けて、RXN for Chemistryは、IBM RoboRXNのようなロボットプラットフォームで自動実行可能な合成プロトコルの探求を可能にします。化学反応モデリングと合成プロトコルの自動化における革新的な進歩を代表します。エンコーダーデコーダーのTransformerを用いて、特許の実験手順から化学合成アクションを抽出し、反応SMILESから直接予測することが可能です。これらのモデルは、ウェブインターフェイスからロボティックプラットフォームを直接制御し、監視することもできます。RXN for Chemistryプラットフォームは、rxn4chemistry Pythonパッケージを通じてアクセス可能で、豊富な言語モデルセットを提供します。このパッケージは、化学反応の異なるタスクに対して、研究者が自由にアクセスし、使用することができます。多段階の逆合成解析計画のような複雑なタスクにも対応し、Transformerベースではないモデルも含んでいます。

この他にもHuggingMoleculesは、分子特性予測のための言語モデルを集約、標準化し、配布することに特化したライブラリもあります。幾何学的および構造認識のバイアスを持つエンコーダーのみのCLM（例えば、MATやその後継のR-MAT）や、SMILES上で学習された純粋なBERTベースのモデル（例えば、MolBERTやChemBERTA）など多数あります。

データ処理では、RDKitというツールもあります。rxn-chemutilsはRXN for Chemistryからの化学関連ユーティリティを含むライブラリで、SMILESの標準化機能（例えば、正規化やサニタイゼーション）や他の表現への変換機能（例えば、InChI）を含みます。これは反応SMILESを調和させ、CLMによる消費のために準備しますが、SMILESの拡張（分子グラフを非正規の順序でトラバースすることにより）やトークン化も含まれます。類似の焦点を持つ別のライブラリにpytodaがあります。異なる言語（例えば、SELFIESやBigSMILES）やトークン化スキーム（例えば、SMILES-PE）もサポートしています。タンパク質に対しても同様の機能があり、異なる言語（IUPAC、UniRep、Blosum62）やタンパク質配列の拡張戦略を含んでいます。小分子、タンパク質、ポリマーに対しては、専用の言語クラスがLMとの統合を容易にし、語彙を保存し、オンライン変換を実行し、カスタムデータセットにフィードします。分子特性の予測、薬剤感受性、タンパク質-リガンド親和性の予測、または小分子、タンパク質、ポリマー上での自己監督のためのデータセットが存在します。

分子発見の未来

数年前まで、AIモデルを科学的知識の抽出や計算分析に用いるという考えは、まるで検索エンジンのような存在を想像するような、野心的な夢でした。科学的思考の核心は推論能力にあり、AIが人間と同じように推論する日はまだ来ていません。しかし、AIは人間の振る舞いを学び、模倣することが可能です。ChatGPTやGitHub Copilotのような大規模言語モデルは、私たちが文書化した膨大なデータを基に学習されています。これが計算科学の世界に応用されると、非専門家でもよく設計されたプロンプトを使って、自信を持って計算分析を行えるようになります。このプロセスでは、科学者がモデルにフィードバックを提供し、それを最適化することができます。これにより、非科学的背景の人々も、専門的なトレーニングなしに科学的分析を実施できるようになるため、より手軽に科学的探究が可能となります。この進展は、分子発見の分野における新たな革命への扉を開きます。将来的には、全ての計算処理を担うチャットボットのようなインターフェイスが登場するでしょう。このインターフェイスは、デザインのアイデアから始まり、合成計画の立案、材料の調達、安全性の定期チェック、そして実験の検証に至るまで、分子発見に関わる一連のプロセスをサポートします。

従来、特定のタスクに特化して学習されたニューラルネットワークは、新たなタスクに対応するためには、新しいモデルの開発が必要とされてきました。しかし、最近の大規模言語モデルの進化は、このアプローチを根本から変えつつあります。「ファウンデーションモデル」は、膨大なデータセットでのトレーニングを通じて、複数のタスクをこなすことが可能になりました。これにより、自然言語処理の分野では、プロンプトエンジニアリングやコンテキスト内学習など、新たな研究の方向性が切り開かれています。

化学分野においても、ファウンデーションモデルの導入が進んでいます。自然言語と化学言語を融合させたタスク特化モデルの開発が進む一方で、プロパティ予測や反応予測、分子生成などを組み合わせたマルチタスクモデルも登場しています。自然テキストから新しい分子の発見、合成経路の提案、そして実際の合成プロトコルの実行に至るまで、一連のプロセスをサポートすることで、従来のモデルを凌駕する性能を示しています。

これらの進歩は、科学的探究と技術革新の加速に大きく貢献しています。分子発見の分野においても、これからの進化が大いに期待されます。

化学ツールとチャットボットの融合

大規模言語モデルの強力な汎用性を考慮して、それを中心にチャットボットインターフェースを構築することは、自然な流れです。ChatGPTなど多くの類似ツールが登場しています。これらのツールは、単純な化学タスクで優れた性能を示し、化学者が化学データを使って対話的に化学タスクに取り組むことができるようになりました。さらに、薬物発見や材料科学のためにコンピュータ科学者によって開発されたモデルも大規模言語モデルを通じて利用できます。これにより、これらのAIモデルを利用するために必要なプログラミングスキルを持たない専門家でも、手軽に最新技術にアクセスできるようになりました。

このようなチャットボットの利便性は、PubChem、RDKit、GT4SDなどの既存の化学ソフトウェアツールと融合することによって実現することができます。これらのアプリケーションは、これらのモデルの使用を強化し、その潜在能力と価値を最大限に引き出すことができます。下図は、この論文で構築したChemChatというチャットインターフェースを利用して、様々な化学ツールを利用している例を示しています。

この例では、最初に、ユーザーが分子構造を提供し、その分子を識別するように求めています。ユーザーが入力した情報は、大規模言語モデルに送信され、PubChemなどサポートされているツールが質問に回答できると判断されると、チャットボットはPubChem APIにリクエストを送信し、分子の簡潔な説明が返されます。続いて、ユーザーはlogP分配係数と薬物様性の定量的推定(QED)を計算するように依頼しています。これらのプロパティの計算は、GT4SDツールを介して行われ、チャットボットが回答を返しています。

既存のツールと大規模言語モデルを組み合わせることで、材料科学とデータ可視化のためのチャットボットアシスタントが生まれ、ユーザーがプログラミングを知る必要も、コンピューティングリソースにアクセスする必要もなく、簡単なプログラミングタスクを実行することができます。

また、このチャットのやり取りでは、最初の特定したテオブロミンに類似し、logPが約0.5である分子を3つ聞いています。ChemChatでは、この問いに対して、3つの候補のSMILESが挙げられると、そのテキストの結果は、いくつかの事後処理をされたのち、可視化されています。

チャットボットは、ChatGPTの急速な拡大に見るように、非常に高い利便性を持っています。大規模言語モデルを活用することで、複雑な化学情報処理を簡単に実行することができます。既存の化学ツールと自然言語能力の相乗効果により、化学の研究・実験のあり方が大きく変わる可能性があります。

まとめ

化学分野では、機能性分子や生化学への研究が発展してもなお、その複雑性から分子設計には多くの時間と高い費用を費やす必要があります。しかしながら、大規模言語モデルを利用することにより、分子発見のスピードを格段に上げる可能性が見えてきました。これらの言語モデルは、テキストを解釈し生成することで、化学構造を学び、化学の探索空間を効率的に探索できる可能性があります。

分子の生成と特性を予測するモデルの組み合わせ、科学的な言語のモデリング、そして最先端のソフトウェアツールの活用が、この分子発見の加速化を推し進めることができます。SMILES、SELFIES、InChIといったテキストベースの分子表現は、モデルが学習されるための基礎を提供し、条件付きの生成モデリングは新たな分子の創出を実現させることができます。

加えて、オープンソースソフトウェアの発展は、Pythonパッケージやウェブアプリケーションという形で、分子発見を後押しするツールを提供しています。化学反応の予測や合成ルートの特定、大規模言語モデルと化学ツールの統合は、分子発見の未来を形づくる重要な要素です。

このような進歩は、薬剤発見をはじめとする人々の生活に深く関わる領域での科学的探求と技術革新を加速させることが期待されています。大規模言語モデルを核としたチャットボットインターフェースが登場することで、化学情報学ソフトウェアをシームレスに統合し、専門知識がなくても誰でも容易に科学的分析を行えるようになることは、分子設計と発見における新たな革命の予兆と言えます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。