最新AI論文をキャッチアップ

トランスフォーマーと大規模言語モデルが作る化学研究と新薬開発の未来

トランスフォーマーと大規模言語モデルが作る化学研究と新薬開発の未来

Large language models

3つの要点
✔️ トランスフォーマーが化学分野にも影響を及ぼし、新薬の発見や開発に重要な役割を果す
✔️ 化学タスクをテキストシーケンスとして処理する方法を開発し、新薬開発プロセスの効率化を示唆
✔️ 特定のタスクに特化したモデルでは、反応予測や逆合成解析といった分子変換タスクでも優れた性能を達成

Transformers and Large Language Models for Chemistry and Drug Discovery
written by Andres M Bran, Philippe Schwaller
(Submitted on 9 Oct 2023)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Chemical Physics (physics.chem-ph)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

機械学習の分野では、人間の言語を処理し、正確にモデル化する研究が長年に渡って続けられてきました。この背景には、言語が人間の推論能力に不可欠であるという考えがあります。正確にモデリングされた言語モデルは、さまざまな情報処理タスクを強化し、複数の産業に革新的な進歩をもたらす可能性があるとされています。特に、自然言語処理の分野は、コンピューティングインフラの向上、アルゴリズムのブレイクスルー、そして豊富なデータの普及によって大きな進歩を遂げています。

この進歩は、新薬の発見と開発の基礎となる化学の領域にも影響を与えています。化学の言語を理解し、正確にモデル化することは、製薬業界の研究開発にとって欠かせないことです。機械学習の技術を化学分野に応用することで、膨大な量の化学データや文献の効率的な分析・解釈が可能になり、新薬の発見を促進しています。

2017年に導入されたトランスフォーマーアーキテクチャは、自然言語処理における革命的な変化をもたらしました。このモデルは、文脈内での単語やサブワードの意味を捉えることができる「アテンション層」というコア構造にもとづいています。そして、このトランスフォーマーは、その後も進化を続け、翻訳や感情分析、要約など、言語モデリングの幅広いタスクで優れた性能を示しています。

化学の分野でも、この技術は新たな革命をもたらしています。研究者たちは、テキストシーケンスの形で化学タスクを処理する方法を開発し、オープンデータセットやベンチマークの導入によって、新薬の開発プロセスにおける基本的な課題への取り組みを効率化しています。さらに、分析技術のスペクトルや合成手順など、追加のデータタイプを取り入れたマルチモーダルモデルの開発により、化学と自然言語のモデリングの間のギャップを埋めることを目指しています。

現在、新薬の開発プロセスが急速に進歩しています。トランスフォーマーモデルの化学分野での影響は、大きなものであり、化学と薬物発見の未来を形作る上でのその中心的な役割を果たしています。この論文では、分子と反応のテキスト表現を簡単に紹介し、その後、シングルモダリティとマルチモダリティのタスクに特化したトランスフォーマーについて議論し、最後に、化学と新薬発見における大規模言語モデルと潜在的な用途について議論しています

有機化学のモデリング

化学は、多くの側面で言語に似ています。情報の伝達に人間の言語が広く使われているだけでなく、化学変換の背後にある規則自体が、まるで独自の言語を形成しているかのようです。この「化学の言語」を正確に理解し、モデル化することに成功すれば、化学の複雑さを解き明かし、自動逆合成計画や化学空間の効率的な探索など、新たな応用の扉を開くことができます。

しかし、化学の言語は、英語や中国語などの従来の言語とは一線を画します。有機化学においては、文法が分子グラフや反応条件に基づいて構成され、これがトランスフォーマー技術を直接適用する際の障壁となってきました。この課題を克服する鍵は、分子を線形の文字列で表現するという、数十年にわたる伝統的なアプローチにあります。実際、近年ではこの分野における新しい改良や提案が行われており、有機化学の理解を一層深める可能性を秘めています。

有機化学の研究とは、新しい分子や反応を発見し、それらを分析してデータベースでカタログ化するプロセスとも言えます。研究者たちは、科学論文や特許、ハンドブック、そして最近では計算データベースなど、様々な情報源を利用しています。これらの情報を簡単に保存し、検索できるようにするため、1980年代からSMILES(Simplified Molecular Input Line Entry System)が提案され、広く使用されてきました。

SMILESは、分子を線形の文字列で表現する方法であり、特定の原子から始めて、分子内の他のすべての原子を順に列挙します。この表現方法では、結合タイプ、枝分かれ、環構造、立体化学など、分子を表すための重要な情報が特殊文字を使って示されます。このようにして、有機化学の広範な領域を文字列として表すことができます。


しかし、分子向けの機械学習アプリケーションの登場により、SMILESの表現には限界があることが明らかになりました。例えば、この表現の堅牢性の欠如は、無効な分子の生成という問題を引き起こしています。この課題に対処するため、新しい文字列ベースの表現法であるSELFIESSelf-Referencing Embedded Strings)が導入されました。この方法は、任意の文字列を有効な分子にマッピングすることを保証するユニークな構造を持ち、新薬発見や分子生成などの分野で応用されています。

さらに、これらの分子テキスト表現を利用して、化学反応を簡単にエンコードすることができます。反応物と生成物をドット「.」で区切り、「>」記号を使って分離することで、化学方程式の文法を表現することが可能です。触媒や試薬などの詳細は「>>」記号で挟み込むことで表現されます。このようにして、「A.B>触媒.試薬>C.D」という形で反応が表され、これはSMILESで広く使われる「reaction SMILES」と呼ばれています。

また、化学分野におけるトランスフォーマーアーキテクチャの導入は、化学問題を解決するための新しいアプローチを提供しました。この技術により、化学の問題を言語の形式で表現し、トークンのシーケンスに変換することが可能になり、化学領域内での変革的な進歩を実現しました。逆合成や順合成、分子の性質を予測する分子回帰、反応の分類など、多岐にわたる予測タスクでこの技術はその威力を発揮しています。

さらに、トランスフォーマーは、単に分子グラフの操作を超えた応用にも対応しています。実験手順の推測など、実験条件や標準手順の深い理解を必要とするタスクにおいても、人間の言語をモデル化することで成果を上げています。これは、化学の分野において、前例のない多様な問題解決の可能性を開いています。

このような広範な応用は、トランスフォーマーアーキテクチャのさまざまなバリエーションによって可能になっています。特定のアプリケーションに応じて、エンコーダー・デコーダーモデル、エンコーダーのみ、デコーダーのみという形で、アーキテクチャの異なる部分が活用されています。これにより、一つのシーケンスから別のシーケンスへの変換、データから豊かな表現を抽出するタスク、生成アプリケーションなど、さまざまな用途に合わせた最適なモデルが開発されています。

 

トランスフォーマーアーキテクチャが世界を変えたのは、言語間の翻訳を劇的に改善したことから始まりました。しかし、この技術は、言語の壁を超えるだけでなく、化学の領域においても革命的な進歩をもたらしています。化学反応や分子構造を、1つの「言語」から別の「言語」へと変換することに成功しています。

この分野での画期的な進歩は、Schwallerらによって導入された分子トランスフォーマーによってもたらされました。Schwallerらは、化学反応予測を、ある形式(前駆体)から別の形式(生成物のSMILES)へと「翻訳」するタスクと見なし、化学反応の予測において非常に成功を収め、新たな基準を確立しました。さらに、この技術は逆合成解析などの他の複雑なタスクにも適用され、研究者が特定の化合物を生成するために必要な反応物や試薬を予測する能力を高めています。

この技術の応用範囲はさらに広がり、Irwinらによって提案されたChemformerのように、さまざまな化学タスクに事前学習した後、特定のアプリケーションに特化させることができるモデルも登場しています。これは、化学の問題解決における柔軟性と適用範囲の拡大しています。また、TuとColeyによる研究では、分子を分子グラフとして直接エンコードし、それをSMILESに翻訳する新たなアプローチを開発しています。この方法は、化学の問題解決におけるトランスフォーマーの可能性をさらに広げるものであり、従来の方法よりも優れた改善を示しています。

また、化学分野では、表現学習が重要な役割を果たしています。分子や反応をベクトル形式に変換することで、データベース検索の類似性評価や、反応収率予測、有害化合物の識別など、多岐に渡って応用されています。これらの応用は、新薬の開発プロセスにおいて極めて重要です。

Wangらによる研究では、反応表現を生成し、従来の手作業による分子表現と比較することで、下流の回帰タスクの精度向上を示しました。これは、化学タスクにおけるトランスフォーマーエンコーダーの効果を明らかにしています。また、トランスフォーマーのデコーダー部分を分類層に置き換え、化学反応のクラス予測を学習する研究も行われました。得られたベクトル表現は、化学反応のデータベースを視覚化し、探索するのに使用され、データソースや化合物の特性によって反応がどのようにグループ化されるかを明らかにしました。

このような教師なし学習の応用は、バイオケミストリー分野においても展開されています。Rivesらは、ラベルなしのタンパク質配列にトランスフォーマーモデルを学習し、「タンパク質の言語」を学ぶことで、タンパク質の特性予測やタンパク質の折りたたみ予測を可能にしました。さらに、これらのモデルは自然界に存在するタンパク質を超えて一般化する能力を示し、新しいタンパク質のデノボ生成に向けた道を開きました。

さらに、トランスフォーマーが化学反応の内部表現を作成し、そのプロセスを通じて原子マッピングを正確に計算する能力があることを発見しています。この発見から生まれたRXNMapperは、他の手法を速度、並列化、精度の面で上回っています。このアプローチは、酵素反応においても同様に有効で、タンパク質配列の活性部位を識別する新たな道を切り開きました。

さらに、化学変換工程は、化学構造に限定されない多面的なプロセスです。分子や実験結果の説明に用いられる人間の言語から、数値配列や画像といった形式で提示される実験データまで、多様なデータタイプやモダリティを扱います。

この多様性を踏まえ、化学者たちは分子の世界と人間の言語の間のギャップを埋めるタスクを提案しました。例えば、「分子キャプショニング」というタスクでは、特定の分子を自然言語で説明します。これは分子の特性、起源、薬物相互作用といった幅広い特徴を網羅し、シンプルな英語で表現されます。さらに、分子と自然言語間の相互変換を可能にする新しいモデルも開発されています。これにより、テキストクエリに基づく分子の生成や、反応結果の予測、逆合成など、多岐にわたるタスクを実行できるようになりました。

また、合成プロセス設計に欠かせない実験手順の予測も、この技術を応用することができます。予測された反応だけでは不十分な、物質の添加や撹拌、精製といった実験実現のための具体的なステップを生成するモデルが開発されています。

さらに、実験結果と分子構造の結びつきを明らかにする研究も行われており、計算生成されたIRスペクトルを用いた構造予測のためのトランスフォーマーモデルが学習されました。このアプローチは、IRスペクトルからの官能基の予測において、従来の方法を上回る成果を達成しています。

トランスフォーマーアーキテクチャが、単にテキストを処理するだけでなく、化学やバイオケミストリーなど、より広範な分野で革新をもたらす可能性を持っていることを示しています。

タスク特化型モデルを超えて進化するアプリケーション

最近の技術の進展により、大量のデータで事前学習したファウンデーションモデルが急速に注目されています。これらのモデルは、インターネットから得られた広範なテキストデータを学習することで、広範な知識を獲得します。これまで見てきたように、特にトランスフォーマーアーキテクチャの拡張によって、これらのモデルは様々な状況で人間並みのテキストを生成する能力を持つようになりました。これらのモデルは、少ないデータで特定の目的に合わせて調整することもできます。

この中で特に注目されるのが、会話用にファインチューニングされた大規模言語モデルであるChatGPTです。ChatGPTのリリースは、機械学習が一気に普及しただけではなく、知性の本質に関する深い議論を呼び起こしました。しかし、同時に、誤情報の拡散などの潜在的な問題に対する警鐘を鳴らしています。ChatGPTの影響力とアクセシビリティは、私たちがメディアをどのように生成し消費するかを再考する契機となり、その潜在的な影響について慎重な配慮を促しています。

ChatGPTの成功と人気は、誰もが自由にアクセスでき、直感的に使えるユーザーフレンドリーなインターフェースと、学習されたタスク以外に対しても優れた性能を示す、その有用性によるものです。これらの点は、ChatGPTやそれに類するモデルが持つ力を明らかにし、さらなる革新的なアプリケーションへの可能性を示唆しています。

また、ChatGPTの大規模言語モデルでは、機械学習アルゴリズムの発展とデータ量の増加が、技術的な限界を押し上げる新たな傾向を生み出しました。これらのモデルが大きくなるにつれ、学習したタスクをより効果的に実行できるようになります。この現象は特に言語モデルで顕著であり、「スケーリング法則」として知られるようになりました。これらの法則は、モデルが拡大するにつれて見られる性能の向上傾向を研究者が特定し、大規模モデルの能力を予測するための重要なツールとなっています。

しかし、単に既存の能力を強化するだけでなく、モデルの成長に伴い全く新しい能力が現れる「出現能力」という現象が注目されています。これらの新しい能力は、小規模モデルでは予測不可能で、モデルが特定の大きさに達すると突如として現れます。例えば、計算予算が限られた言語モデルがランダムに振る舞う一方で、あるサイズを超えると、タスクに対する性能が大幅に向上することが確認されています。

これらの出現能力には、ステップバイステップの推論を行うChain of Thought(CoT)推論や、指示に従う能力などがあり、これらは従来の小規模モデルではパフォーマンスを低下させることが多いですが、特定の大きさに達したモデルでは性能が向上します。これにより、言語モデルは、明示的な学習なしに、自然言語のクエリを使って、推論を含む様々なタスクを効果的に解決することが可能になります。大規模言語モデルが示すこれらの顕著な能力は、化学を含む多様な分野での応用において革新的な可能性を秘めています。

化学における大規模言語モデル

化学分野でも、トランスフォーマーアーキテクチャの適用が注目されています。これは、化学タスクを精密にエンコードし、それらを正確に処理するためのものです。化学情報の大部分が、人間の言語を介して表現されています。反応機構の説明や薬の作用様式など、化学における推論は根本的に人の言語で表現されます。しかし、それだけではなく、グラフや画像などの非テキストの要素も必要になります。人の言語だけで表現できるわけではありません。この点から、大規模言語モデルが化学的推論をどの程度再現できるのか、そしてその範囲についての疑問が生じます。

特にファインチューニングとインコンテキスト学習という技術は、これらの大規模な事前学習済み言語モデルを特定のアプリケーションに適応させる主な手段です。これらの技術は、多くのアプリケーションで優れた成果を上げており、大規模言語モデルが提供する新しい学習パラダイムに焦点を当てています。例えば、GPT-3のような大規模言語モデルがファインチューニングを通じて、化学や材料科学の多岐にわたるタスクを効率的に解決できることが実証されています。

この分野における重要な応用は、分子生成です。これまで、SMILESやSELFIESのような線形文字列表現を使用して分子を生成するモデルが主流でした。しかし、Flam-ShepherdとAspuru-Guzikによって、三次元原子位置を直接生成するために言語モデルが利用されたことで、この分野における新たな可能性を示しました。これらのモデルは、結晶やタンパク質など、さまざまな形式の訓練を通じて得られる構造を生成することができ、従来の方法の制限を克服しながら、専門家設計の最先端アルゴリズムと同等のパフォーマンスを示しています。

化学分野における大規模言語モデルの応用は、データが不足している場合や取得が困難な場合に特に有用です。これらのモデルの革新的な能力により、化学研究の新たな進歩が期待されます。これらの技術が提供する柔軟性と、データの複雑な相関関係を迅速に解明する能力は、科学分野での機械学習の利用方法を根本から変える可能性があります。

また、言語モデルが示す最も注目すべき能力の一つは、先ほども触れたステップバイステップの推論です。この能力は、連鎖思考(CoT)プロンプティングを通じて活性化され、ツールを効果的に使用する力も含まれます。これらの進歩は、言語モデルの性能を多岐に渡るタスクで顕著に向上させることを示しており、CoTプロンプティングにより、言語モデルは一連の推論ステップに従ってタスクを解決するよう指示されます。これにより、象徴的な操作を行う能力が可能になり、人間が中間ステップを追跡しながら算数操作を行うような方法で実行されます。

ツール使用の能力は、外部の計算ツールを呼び出し、検索エンジンのクエリや電卓のアクセスを通じて知識を豊かにすることができる、言語モデルの別の重要な特性です。これにより、以前にはアクセス不可能だったタスク範囲において、大規模言語モデルの性能向上が可能になりました。この新しい進歩は、より強力で有用な機能を生み出すために、これらの能力を組み合わせる可能性を示唆しています。


最近では、現代の大規模言語モデルのCoTとツール使用能力を組み合わせたModular Reasoning, Knowledge and Language(MRKL)やReason+Act(ReAct)システムが開発されました。これらのエージェントは、外部ツールをCoT設定に組み込むことで、大規模言語モデルに基づく他の方法を上回る性能を示しています。特に、効果的なツール使用はLLMの単一モダリティ問題を部分的に解決し、異なるタイプの入力データの処理、シミュレーション環境でのリアルタイム決定、さらには実世界のロボットプラットフォームとの対話能力を実現します。

化学におけるエージェントの展開は、これらのモデルが誤った内容や不正確な情報を生成する傾向にもかかわらず、大規模言語モデルの化学への応用の可能性を示しています。世界中の研究者が参加する共同研究により、計算ツールのアクセシビリティを向上させるラッパーや、反応最適化アシスタント、知識パーサーやシンセサイザーなど、14のユースケースが実証されました。これらの進歩は、化学分野での計算アプリケーションの適用可能性とアクセシビリティを大幅に向上させる可能性があります。特に、BranとCoxらによる計算化学ツールのセットの開発は、化学タスクの計画と実行の効率化を示し、これらのモデルが現実のデータに基づいた解決策を提供することで、「幻覚的」な回答を生成する傾向を抑制します。ChemCrowのようなプラットフォームは、化学者にとって一般的なアシスタントとして機能し、科学的発見を加速させるために計算ツールをよりアクセスしやすくします。 

まとめ

機械学習、特にトランスフォーマーアーキテクチャの導入が、化学や新薬開発の分野でブレークスルーを起こしました。化学と言語の類似性を背景に、オープンデータベースやベンチマークの導入により、化学タスクを言葉で表現し、タスクを解決することができるようになりました。そして、この進歩は、3つの段階で展開してきまました。

最初の段階では、特定のタスクに特化したモデルが反応予測や逆合成解析といった分子変換タスクで優れた性能を達成しています。その優れた性能から、これらのモデルを多くのアプリケーションでの標準としました。

次に、実験データや自然言語など、化学に関連する様々な追加情報を組み合わせる試みがなされ、更に多くのアプリケーションでの応用が可能になりました。しかし、これらは依然として特定のタスクに限定されていました。

そして、近年、大規模言語モデルの学習とチューニングの技術進歩により、これらのモデルの広範な能力を活用する研究が進んでいます。これには、回帰、分類、分子生成、反応最適化など、前例にない柔軟性と性能を備えたアプリケーションが含まれています。さらに、無限に近いモダリティを取り入れたエージェントが、分子生成から自動有機合成に至るまで、様々なタスクを実現しています。

自然言語の表現力と柔軟性を活用することで、近年のこの技術の流れは、化学言語と自然言語の間のギャップを埋めることを目指しています。これらの技術をさらに発展させることで、機械学習が科学的発見を加速する上で、より大きな役割を果たす未来が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする