【ChemBench】新しい化学分野のベンチマーク！LLMが専門家を超えた？

Large language models 2024年11月26日

3つの要点
✔️ 化学における大規模言語モデルの能力をより深く理解するための新しいベンチマークフレームワーク「ChemBench」を提案
✔️ 最新の大規模言語モデルが化学分野の多くの問題で専門家を上回る性能を達成
✔️ 現在の評価方法では、モデルの本質的な能力を十分に測定できず、特に複雑な推論を必要とする問題では性能が低下

Are large language models superhuman chemists?
written by Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka
(Submitted on 1 Apr 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Materials Science (cond-mat.mtrl-sci); Artificial Intelligence (cs.AI); Chemical Physics (physics.chem-ph)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデルは、大量のテキストを学習してテキストを生成する機械学習モデルです。これらのモデルの能力は急速に向上しており、現在では米国の医師国家試験に合格することも可能です。また、ウェブ検索や合成プランナーなどのツールと連携して、化学反応を設計し、自律的に実験することもできます。

一部の人々はこれらのモデルを「人工汎用知能（AGI）の兆し」と考えていますが、また、他の人々はこれらを「確率的オウム」と見なしています。つまり、学習した内容を繰り返すだけの単純なシステムと考えています。それにもかかわらず、大規模言語モデルは明示的に学習されていない様々なタスクを解決する能力を示しており、経済的な関心と投資が急速に拡大しています。2032年までに、この分野の市場規模は1.3兆ドル以上に達する見込みと試算されています。

化学者や材料科学者も大規模言語モデルへの関心を高めています。これは、大規模言語モデルが分子や材料の特性を予測し、反応を最適化し、新しい材料を生成し、情報を抽出するなどの用途で利用されているためです。さらには、自然言語での指示に基づいて物理的な反応を自律的に実行するシステムも試作されています。

化学に関する情報の多くがテキストで保存されている現在、大規模言語モデルにはまだ多くの未開発の可能性があると考えられます。例えば、多くの化学研究の洞察はデータベースではなく、化学者のデータ解釈力から得られています。これらの洞察は科学論文にテキストとして存在しており、テキストを操作することで新たな洞察を得ることができます。これは、化学者のためのコパイロットシステムの実現に繋がり、人間が読むことのできる情報を超える膨大な情報を基に質問に答えたり、新しい実験を提案したりすることができるようになります。

しかし、化学に関する機械学習モデルの能力の向上は、技術の二重使用の可能性について懸念されています。例えば、毒性のない分子を設計する技術が逆に毒性のあるものを予測するために使用される可能性があります。このようなリスクを認識し、適切な評価のフレームワークを構築することが重要です。しかし、現在、大規模言語モデルの評価は、BigBenchやLM Eval Harnessなどの標準化されたベンチマークを通じて行われていますが、これらには化学関連のタスクがほとんど含まれていません。

この論文では、新しいベンチマークフレームワーク「ChemBench」を提案し、現在の最先端のモデルの限界を明らかにしています。ChemBenchは、多様なソースから収集された7059の質問回答ペアで構成されており、学部および大学院の化学カリキュラムの大部分を網羅しています。さらに、41人の化学専門家にアンケートを実施し、現在のモデルの性能を人間の化学者と比較しています。

その結果、現在のモデルは、一部の面で人を超える能力を示す一方、安全性に関する面で非常に誤解を招く可能性があることが示されています。慎重に作成された広範なベンチマークは、この分野の進歩にとって重要なステップとなると考えられます。

方法

データセットの質問は、既存の試験や演習シートからキュレーションしたものに加え、新たにプログラムで生成した質問も含まれています。質問はGitHubリポジトリへのプルリクエストを通じて追加され、手動レビューおよび自動チェックを通過した後にのみコーパスにマージされます。

質問が学習データセットに含まれないようにするために、BigBenchプロジェクトと同じカナリア文字列を使用しています。これにより、大規模言語モデルの開発者はこのカナリア文字列を学習データセットからフィルタリングする必要があります。手動でキュレーションされた質問は、大学の試験や演習、問題集などのさまざまなソースから取得されました。手動でキュレーションされた質問のソースの概要は下表に示されています。

さらに、手動でキュレーションされた質問に加えて、プログラムで生成された質問も含まれています。半自動生成された質問のソースの概要は下表に示されています。

一貫性を保つために、完了モデルと指示調整モデルに合わせた異なるプロンプトテンプレートを使用しています。特定のフォーマットで応答を受け取るためにテンプレート内でモデルに制約を課し、堅牢で公平かつ一貫した解析を行えるようにしています。特定のモデルは、科学的記法、化学反応、テキスト内の記号のために特別な注釈やLATEX記法で学習されています。例えば、すべてのSMILES表現はGalacticaでは[START SMILES][\END SMILES]で囲まれています。プロンプト戦略は、モデルごとにこれらの詳細を一貫して反映し、LATEX記法、化学記号、化学方程式、および物理単位の後処理（ラッパーの追加または削除）を行います。このステップはコードベースで簡単にカスタマイズできます。

また、パーシングワークフローは複数のステップからなり、主に正規表現に基づいています。指示調整モデルの場合、まず、モデルに回答を報告するように指示する[ANSWER][\ANSWER]環境を特定します。完了モデルの場合、このステップはスキップされます。そこから、関連する列挙文字（複数選択問題の場合）または数字を抽出しようとします。数字の場合、私たちの正規表現はさまざまな形式の科学的記法に対応するように設計されています。初期のテストでは、モデルが時々数字を単語の形で返すことが判明したため（例：「1」ではなく「one」）、正規表現を使用して単語から数字への変換も実装しました。これらのハードコーディングされたパーシングステップが失敗した場合、大規模言語モデル（例：Claude 2）を使用して完了をパーシングしています。

出力の変動を考慮するために、カスタム正規表現を使用しています。すべてのモデルレポートについてトピックごとに10件の質問の大規模で多様なサブセットを選択し、パーシングされた出力がモデルの意図した実際の回答と一致しない箇所を手動で調査しています。MCQ質問では99.76％のケースで、浮動小数点質問では99.17％のケースでパーシングが正確であることがわかりました。エラーを最も頻繁に生成するモデルは、pplx-7b-chatとMixtral-8x7bです。

実験

ベンチマークコーパスは、大学の試験問題や化学データベースの精選されたデータセットから半自動で生成された質問など、幅広いソースを利用して作成されています。品質を保証するため、すべての質問は元のキュレーターと自動チェックに加えて、少なくとも1人の化学者によってレビューされています。この大規模な質問集は、化学のさまざまなトピックを網羅しています。例えば、下図では化学の各分野における質問数を比較しています。

また、下図では質問の埋め込みを主成分分析（PCA）を用いて2次元空間に視覚化しています。この図では、意味的に類似した質問が近くに配置されており、ポイントは11のトピックに基づいて色分けされています。ChemBenchが安全性に関連する側面に重点を置いていることは、この図で明確に示されています。

多くの既存のベンチマークは選択式質問（MCQ）に集中していますが、これは化学教育や研究の現実を反映していません。そこで、ChemBenchではMCQと自由回答の両方の質問をサンプリングしています（6202のMCQ質問と857の自由回答質問）。

ルーチン評価のためには、コーパス全体の小規模なサブセットが実用的である場合があります。例えば、Liangらは、広く使用されているHELMベンチマークでの単一評価に対するAPIコールのコストが10,000ドル以上になると報告しています。この問題に対処するため、私たちはコーパス全体の多様で代表的なサブセット（209の質問）も提供しています。このサブセットは、トピックが全体のコーパスよりもバランスよくなるようにキュレーションされており、人間のベースラインスタディのためのウェブアプリケーションのシードとしても使用されています。

化学分野で使用されるテキストは通常の自然言語とは異なるため、このようなテキストを特別に処理するモデルが多数開発されています。例えば、Galacticaモデルは、分子や方程式の特殊なトークナイズやエンコード手法を使用しています。しかし、現在のベンチマークスイートは、科学情報の特別な取り扱いに対応していません。この問題に対処するために、ChemBenchは質問や回答のさまざまな部分の意味をエンコードします。例えば、Simplified Molecular Input Line-Entry System（SMILES）で表現された分子は、[START SMILES][END SMILES]タグで囲まれています。これにより、モデルはSMILES文字列を他のテキストとは異なる方法で処理することができます。

多くの広く利用されているシステムがテキスト補完にのみアクセスできるため、ChemBenchはテキスト補完を操作するように設計されています。これは、検索APIやコードエグゼキュータなどの外部ツールを使用して大規模言語モデルの能力を強化するツール拡張システムの数が増加しているため、特に重要です。この場合、さまざまなトークンの確率を返す大規模言語モデルはシステム全体の一部に過ぎず、その確率をシステム全体の文脈で解釈することは明確ではありません。しかし、テキスト補完は実際のアプリケーションで使用されるシステムの最終出力であるため、これを評価に使用しています。

現在の大規模言語モデルの能力を理解するために、主要なモデルをChemBenchコーパスで評価しています。これには外部ツールを併用したシステムも含まれます。評価結果の概要は下図に示されており、モデルが正解した質問の割合を示しています。

専門家の最悪、最高、平均のパフォーマンスも示しています。驚くべきことに、最先端の大規模言語モデルであるClaude 3は、この全体的な指標で、人間を上回り、専門家の平均パフォーマンスを2倍以上も上回っています。他の多くのモデルも平均的な人間のパフォーマンスを上回っています。特に、化学用途向けに特別に学習されたGalacticaモデルは、多くの先進的な商用モデルやオープンソースモデルに比べてパフォーマンスが劣り、ランダムベースラインをわずかに上回る程度でした。

ツール拡張システムへの関心が高まる中、これらのシステム（GPT-3.5とツールで強化されたClaude 2）の評価結果が平凡であることは注目に値します。このパフォーマンスの欠如は、システムを最大10回の大規模言語モデルのコールに制限したためです。デフォルトのツール拡張設定（いわゆるReActメソッド）では、システムが正解を特定できず、繰り返しウェブで検索しても10回以内に解決策が見つからなかったためです。この観察結果は、予測パフォーマンスだけでなく、ツール拡張システムの計算コスト（APIコールの観点から）も重要であることを強調しています。

モデルのパフォーマンスをより詳細に理解するために、化学のさまざまな分野でのパフォーマンスも分析しています。この分析のためにいくつかのトピックを定義し、ChemBenchコーパスのすべての質問を手作業でルールを作成して分類しています。その後、モデルや人間が各トピックに対して正解した質問の割合を計算しています。スパイダーチャートでは、各次元の最悪のスコアはゼロ（正解なし）、最高のスコアは1（すべての質問に正解）となります。色付きのエリアが大きいほどパフォーマンスが良好であることを示します。このパフォーマンスはモデルやトピックによって大きく異なることがわかります。

多くのモデルで高分子化学と生化学のスコアが比較的高い一方で、化学安全性や分析化学などのトピックではパフォーマンスが低いことがわかります。例えば、核磁気共鳴（NMR）スペクトルに観測される信号の数を予測することはモデルにとって難しく、GPT-4では正解率が10％でした。一方、専門知識を学んだ人間は同じ質問で正解率25％を示しました。これは、人間には化合物の図が与えられるのに対し、モデルにはSMILES文字列のみが与えられ、これを用いて化合物の対称性について推論する必要があるためと考えられます。

モデルが質問に正しく回答できるかどうかを推定できるかどうかは重要です。もしそれができれば、回答が間違っていた場合でも、その誤りを検出できるため、問題が少なくなります。この問題を調査するために、上位のモデルに対して、質問に正しく回答する能力に対する信頼度を順序尺度で推定するように指示しました。図6では、いくつかのモデルにおいて、推定された難易度とモデルが質問に正しく回答したかどうかの間に有意な相関がないことを示しています。

人間がモデルの回答に依存する可能性があるアプリケーションにおいて、これはモデルの出力の解釈における批判的な推論の必要性を強調する懸念すべき観察結果です。例えば、化合物の安全性プロファイルに関する質問について、GPT-4は正解した120の質問に対して平均3.97（1〜5の尺度）の信頼度を報告し、不正解だった667の質問に対しては平均3.57の信頼度を報告しました。Claude 3の口頭での信頼度推定は平均的により良いキャリブレーションがされているように見えますが、それでもいくつかのケースでは誤解を招くことがあります。例えば、化学物質の分類および表示の世界的調和システム（GHS）に関する質問では、Claude 3は正解に対して平均2.39、不正解に対して平均2.34のスコアを返します。

まとめ

この論文では、大規模言語モデルが化学分野で驚くべき能力を発揮することを明らかにしています。最新のモデルが、化学の多くのトピックの問題において専門家を上回る成果を示しています。しかし、まだ多くの限界も存在しています。特に重要なトピックでは、モデルの回答が誤っていることが多く、多くのモデルは自身の限界を正確に把握することができませんでした。

また、この論文での評価で見られたモデルの高い性能は、モデル自身よりも評価に用いた試験や化学者を評価するための試験の限界を示しているのかもしれません。例えば、モデルは教科書に載っている問題には優れたパフォーマンスを発揮しますが、より複雑な推論を必要とする問題には苦戦しています。この点を考慮すると、化学の教育方法や評価方法を見直す必要があります。批判的な思考力はますます重要になり、単なる問題解決や事実の暗記の分野では大規模言語モデルが引き続き人間を上回ると考えられます。

この論文では、評価のフレームワークの広さと深さの間の微妙なバランスも浮き彫りにしています。異なるトピックでのモデルのパフォーマンス分析は、分野ごとにモデルの成果が大きく異なることを示しています。同じトピック内でも、問題の種類や回答に必要な推論によってモデルのパフォーマンスは大きく変わります。

現在の化学分野の大規模言語モデルの評価フレームワークは、特定の特性予測タスクでモデルのパフォーマンスを測るように設計されていますが、これらは推論や科学的応用のために構築されたシステムを評価するには不十分と言えます。そのため、化学分野における大規模言語モデルの能力についての理解は限定的でした。この論文では、慎重に作成されたベンチマークが化学分野における大規模言語モデルの能力をより深く理解するための手段となることを示しています。特に、モデルが自身の限界を正確に把握できないことを考慮すると、人間とモデルのインタラクションフレームワークの開発にもっと焦点を当てる必要があると言えます。

この論文では、大規模言語モデルベースのシステムのさらなる改善が必要な領域が多くあることを示していますが、明確に定義された指標が機械学習の多くの分野で重要であることもわかりました。現在のシステムは化学者のように推論するには程遠いですが、ChemBenchフレームワークは、この目標に近づくための重要なステップとなると考えられます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。