ChemLLM：化学分野に特化した大規模言語モデルの革新と応用

Large language models 2024年03月12日

3つの要点
✔️ 新しい手法とモデルの開発: 化学データを自然言語形式に変換する「ChemData」と、化学の専門知識を持つ大規模言語モデル「ChemLLM」を開発。
✔️ 化学専門の対話型モデル「ChemLLM」: GPT-3.5を超える性能を持つ化学専門の大規模言語モデルで、化学の多様なタスクを対話形式で処理可能。
✔️ 科学分野での大規模言語モデルの応用拡大: ChemLLMは化学分野だけでなく、科学全般の言語処理タスクに新たな応用可能性を提供。

ChemLLM: A Chemical Large Language Model
written by Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
(Submitted on 10 Feb 2024)
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデル（LLM）は、その卓越した言語理解と生成能力を背景に、科学の様々な分野への応用が期待されています。特に化学分野では、分子特性の予測から実験プロトコルの設計に至るまで、その潜在能力が注目を集めています。しかし、既存の大規模言語モデルが化学ドメインの専門知識を十分に活用できていないことが課題となっています。

この問題に対処するために、この論文では化学データを自然対話形式に変換する新しい手法「ChemData」と、化学の専門知識を備えた大規模言語モデル「ChemLLM」を開発しています。これらのイノベーションは、化学研究の進展を加速させるだけでなく、科学分野全体における大規模言語モデルの応用可能性を広げることに貢献します。

「ChemData」は、700万件の化学指示データを含み、これらは大規模言語モデルの学習に非常に効果的です。また、化学言語モデルの発展を促すため、このデータセットを公開しています。「ChemLLM」は、化学専門知識を有しつつ自然言語処理の能力を維持する、初のオープンソースの化学言語モデルです。さらに、2段階の指示チューニングパイプラインを通じて、ChemLLMに化学知識を効果的に組み込む方法を示しています。このアプローチは、化学能力を持つ言語モデルの開発だけでなく、科学言語モデルの学習における新たな方向性を示唆しています。

化学研究における大規模言語モデルの可能性を探るこの論文は、科学コミュニティに新たなツールを提供し、化学関連の課題解決において信頼できるアシスタントとなることを目指しています。

ChemData

高性能な化学向けの大規模言語モデルを構築するためには、包括的で高品質なデータセットが必要です。この論文では、インターネットの広範なソースから化学データを収集しています。

このデータセットは、化学のドメイン知識の広い範囲を包括しており、3つの主要なタスクカテゴリー（Molecule、Reaction、Domain）に沿っています。

Moleculeのカテゴリーは、分子構造とその特性を理解し、識別する上で不可欠です。これには4つの主要な領域が含まれています。

分子認識：SMILES、IUPAC、化学式など、さまざまな分子表現間の変換に関係しています。
分子特性予測：溶解性を含む、分子の幅広い属性の予測に焦点を当てています。
分子生成：特定の特性基準を満たすSMILES形式の分子構造を設計し、生成することに焦点を当てています。
分子キャプション：分子の特徴、機能、または関連情報を自然言語形式で生成することに焦点を当てています。

Reactionのカテゴリーは、化学反応を解読する上で重要であり、反応生成物予測、反応収率予測、反応条件選択、逆合成解析が含まれています。これらの各タスクは、化学反応のダイナミクスと結果を理解する上で重要な役割を果たします。

反応生成物予測：関与する反応物に基づいて化学反応の結果を予測することに焦点を当てています。
反応収率予測：反応生成物の収率を推定することに焦点を当てています。
反応条件選択：収率と効率を最大化するために反応が進行すべき最適な条件を決定します。要因には、温度、圧力、触媒、および溶媒が含まれます。
逆合成解析：目標分子から逆方向の分析を行い、可能な反応物および合成経路を推測することに焦点を当てています。

Domainのカテゴリーは、分子や反応を中心としたタスクに加えて、大規模言語モデルの多用途性を大幅に拡張するドメイン固有のタスクを包含しています。これには、ケムインフォマティックプログラミング、ドメインQ&A、文献翻訳、反応設計が含まれています。

ケムインフォマティックプログラミングは、大規模言語モデルに化学情報学のコードを理解し、生成するスキルを実装し、化学分析、研究ワークフローに取り込むことを目指しています。
ドメインQ&Aは、教科書から得られた一般的な化学知識に基づき、基本的な概念から高度なトピックまで、化学ドメインにおける様々な質問に対処する大規模言語モデルの能力を構築することを目指しています。

このように、化学向けの大規模言語モデルの構築に向けて、幅広い化学データを収集し、分析のための基盤を構築しています。これにより、化学の深い理解とその応用範囲の拡大が期待されます。

また、化学向けの大規模言語モデルの開発は、その独特な表現形式とデータの複雑さにより、一筋縄ではいきません。この論文では、化学データを自然言語に変換し、大規模言語モデルの学習に適した形式に整えるため、画期的な手法を導入しています。

この手法では、化学の専門知識を保存しながら、データをよりアクセスしやすく解釈可能な形式に変換しています。具体的には、Seed Templateを活用し、単一および複数ターンの会話シナリオを生成する「Play as Playwrights」と呼ばれる戦略を用いて、学習データの多様性を飛躍的に高めています。この手法は、化学分野に特化して設計されていますが、他の科学領域にも応用可能であり、大規模言語モデルの研究の新たな可能性を広げるものです。

この手法は、化学データの自然言語への変換を通じて、大規模言語モデルの学習効率を大幅に向上させています。初めに、化学の知識を維持しつつ、データを直感的に理解しやすい形式に変換するSeed Templateからスタートしています。GPT-4を使用して、多様なQ&Aペアを生成し、これらを用いて単一ターンの会話例を構築します。この方法は、化学反応の予測や属性の記述といったタスクにも適用可能です。

また、複数ターンの対話生成では、専門家間の議論を模倣し、モデルの推論能力を鍛えることに注力しています。ここでは、内容の専門性や議論の深さを保ちつつ、多様な対話シナリオを作成するために「Play as Playwrights」という技術を採用しています。この手法は、対話の質を高め、より専門的で深い議論を可能にしています。

分子関連タスクでは、特定の化学タスクに適したQ&Aペアを形成するために、Seed Templateを利用しています。例えば、分子名を異なる形式で相互に変換する作業などです。さらに、化学反応のデータを処理する際には、反応条件の多様性と不完全性に対応するために特別なテンプレートを設計しています。

最後に、複数ターンの対話の論理的整合性を強化するため、条件マスキング戦略（condition-masking strategy）を採用しています。これは、モデルが専門家レベルの分析に匹敵する推論を行うことを目指すものです。さらに、広範なドメイン知識をモデルに提供するため、多数の教科書データと研究トピックを集約し、深い読解スキルを養うためのトピックを合成しています。

特定ドメインでの言語モデルの能力向上を目指し、私たちは画期的な「二段階指導チューニングパイプライン」を導入しました。このアプローチは、化学分野専用の言語モデル「ChemLLM」の開発において特に効果を発揮します。このモデルは、中国語と英語の両方に対応し、複雑なタスクに最適な4096トークンの長大なコンテキストウィンドウを備えた「InternLM2-Base-7B」を基盤としています。

ChemLLM

特定ドメインでの言語モデルの能力向上を目指し、「2段階指導チューニングパイプライン（Two-stage Instruction Tuning Pipeline）」という手法を導入しています。この手法は、化学分野専用の大規模言語モデル「ChemLLM」の開発において特に効果を発揮します。このモデルは、中国語と英語の両方に対応し、複雑なタスクに最適な4096トークンの長大なコンテキストウィンドウを備えた「InternLM2-Base-7B」を基盤としています。

最初の段階では、170万件もの多様な例を含む広範なコーパスを利用して、モデルの言語理解能力を高めています。このプロセスを通じて、言語の微妙な違いや対話の構造を把握し、専門的な知識を吸収するための強固な基盤を築いています。この段階では、FireFly、OpenOrca、UltraChatなどのデータセットを活用し、モデルに人間の対話やそのダイナミクスについて深く理解させています。

次の段階で、モデルは化学分野に特化した独自のデータセット「ChemData」を統合することで、さらに専門化されています。この段階では、化学の専門用語の理解から反応メカニズムの解釈まで、様々なサブタスクにおけるモデルの能力を高めることに焦点を当てています。こうして、一般的な会話能力から特定の専門知識への移行がスムーズに行われ、モデルの適応性と精度が大幅に向上しています。

この2段階のアプローチによって、一般的な用途の「InternLM2-Chat-7B」と、化学分野に特化した「ChemLLM」との間にはっきりとした違いが生まれます。この方法は、AI技術が特定の専門分野で不可欠なものへ活用する可能性を広げ、一般的なAI能力と特定のドメイン要件とのギャップを埋める可能性を示しています。

実験結果

専門的な化学タスク、一般的な言語能力、多言語適応性の3つの観点で評価を行っています。化学領域に特化して設計されたChemLLMは、化学的な複雑さやデータを管理する上での習熟度をもちろん重要です。また、一般的な言語の習熟度として、文献レビューの実施や報告書の作成といった包括的なタスクに対する能力も必要です。さまざまなテキストのニュアンスを深く理解することが求められます。さらに、複数の言語を処理するこのモデルの能力は、世界中での利用に不可欠であり、化学情報を多様な言語でナビゲートすることによって、幅広いスペクトルのユーザーをサポートすることを容易にします。これらの側面は、ChemLLMのパフォーマンスの評価、および化学研究や研究内でのその進歩と統合を形作る上で重要です。今回は特にコアとなる専門的な化学タスク、一般的な言語能力についてご紹介します。

まず、専門的な化学タスクに対する評価として、化学分野専用に設計された新しいベンチマーク「ChemBench」を通して、言語モデルの化学に関する理解を評価しています。このベンチマークは、分子の名称変換、分子キャプション作成、化学反応予測という3つの段階的なタスクを含むフレームワークです。各タスクは、モデルが基本的な化学知識から、分子特性の理解、化学反応の結果予測まで、どの程度化学の概念を把握しているかを段階的に評価します。

ChemBenchを利用して行った一連の比較分析の結果は下表のようになります。GPT-3.5やGPT-4を含む様々な大規模言語モデルの化学に関する性能を検証しています。名称変換や分子キャプションといったタスクでChemLLMがGPT-4を上回るなど、同サイズの他のモデルを大きく上回る性能を示しています。特に、化学反応予測のタスクでは、ChemLLMがGPT-3.5を超え、GPT-4に次ぐ優れた成績を収めています。これらの成果は、化学知識を深く取り込んだガイドによって言語モデルがいかに化学領域において高度な理解をできるかを示しています。

また、基本モデルであるInternLM2-7B-Chatの限定的な性能と対照的に、ChemLLMの高い性能は、モデルの学習過程に特化した化学知識を組み込むことの価値を強調します。この比較分析から、化学分野に特化した言語モデルが、一般的なモデルを大きく上回る性能を示すことが明らかになっています。ChemBenchを用いた評価は、化学言語モデルが直面する様々な課題に対するその解決能力を定量的に示し、化学研究における言語モデルの役割と可能性を新たな視点から考察する機会を提供しています。

次に、一般言語能力の評価です。ここでは「MMLU」と「GSM8K」を利用しています。MMLU（Massive Multitask Language Understanding）は、STEM（科学、技術、工学、数学）、人文科学、社会科学など57科目を含む広範な分野で、言語モデルの能力を試す厳しいテストです。この全方位的なベンチマークを通じて、言語モデルが世界的な知識と問題解決能力をどれだけ持っているかが明らかになります。GSM8Kは言語モデルの数学的能力を見極めるためのテストセットです。基本演算を要する2～8ステップの問題を解くことで、モデルの多段階数学推論力を試験します。

ChemLLMは、化学的質問に特化した言語モデルであるにも関わらず、一般的な会話能力や論理的推論といった普遍的な領域でも優れた能力を示しています。これは、特化したモデルが学際的な知識を通じて深い理解を達成できることを意味します。MMLUベンチマークを用いた評価では、ChemLLMがChatGLM3-6B、Qwen7B、LLaMA2-7B、Mistral-7Bなどの同サイズのモデルと比較しても、広範な科学分野で卓越した成績を収めました。特に、大学レベルの物理学と数学での強力なパフォーマンスは、化学トレーニングが隣接する科学領域への一般化能力を高めることを示しています。

化学に特化した学習が、形式論理や道徳的シナリオといったセクションでのモデルの推論能力や倫理的意思決定力を向上させることにも寄与しています。ChemLLMは、基礎的なInternLM2-7B-Chatモデルを大きく上回る成績を示し、特に形式論理セクションで高いスコアを記録しています。

人文科学、STEM、社会科学を含む幅広い科目での優れた性能は、ChemLLMが化学特有のタスクに焦点を当てた学習によって、その一般的なタスクパフォーマンスが損なわれることなく、むしろ有意に働くことを明らかにしています。これは、ChemLLMが持つ包括的で汎用的な能力を強調し、その発展可能性を示唆しています。

まとめ

大規模言語モデル（LLM）が、化学分野の発展に革命をもたらしている今、化学専門の対話型モデルの不在が課題となっています。この問題を解決するため、この論文では、化学知識を対話形式で学習できる新しい方法を開発しています。このテンプレートベースの手法は、化学データを簡単にアクセス可能な形で言語モデルに組み込むことを可能にし、これまでの課題を克服しています。

そして、「ChemLLM」が提案されています。これは化学専門の初の大規模言語モデルであり、分子認識から反応予測まで、化学のさまざまなタスクを対話形式で処理できます。GPT-3.5を超える性能を持ち、化学以外の分野でもその多用性が評価されています。

さらに、ChemLLMは化学分野の特殊な自然言語処理タスク、例えば、文献の翻訳や化学情報学のプログラミング、研究倫理の遵守などにも優れた性能を示しています。この専門知識を取り入れたアプローチが、科学分野での大規模言語モデルのさらなる応用に向けた新たな道を開くことが期待されます。

ChemLLMは、化学の世界における対話と理解を新たなレベルへと引き上げ、専門家だけでなく、学生や研究者にとっても価値あるツールとなると考えられます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。