ChatGPTを活用したAIエージェントによる、化学文献のマイニングの進化

Large language models 2024年11月11日

3つの要点
✔️ 化学分野の文献マイニングにおけるAIエージェントの新しい手法を提案
✔️ この新しい手法によって、人の労力を大幅に節約し、タスクの自動化を実現
✔️ 文献マイニングにおけるAIエージェントの性能を評価する新しいスキームを設計

An Autonomous Large Language Model Agent for Chemical Literature Data Mining
written by Kexin Chen, Hanqun Cao, Junyou Li, Yuyang Du, Menghao Guo, Xin Zeng, Lanqing Li, Jiezhong Qiu, Pheng Ann Heng, Guangyong Chen
(Submitted on 20 Feb 2024)
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Quantitative Methods (q-bio.QM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

化学分野は、その広い応用範囲から、特に材料の合成や薬の開発において重要な役割を果たしています。新しい材料の研究は、エネルギー、環境科学、ナノテクノロジーの発展を促進し、新薬の開発や生命科学の進展にも大きく貢献しています。しかし、化学反応に関する膨大なデータが蓄積されているものの、これらのデータを効果的に活用して新しい反応スキームを発見し、材料の合成や薬の開発に役立てることが課題となっています。そこで、人工知能の活用が注目されています。

人工知能は、既存の大量のデータから学習し、新しい反応の結果を予測することで、反応の特徴やパターンを特定することができます。これにより、化学者は多様な反応条件を迅速にスクリーニングし、評価し、合成経路を最適化することが可能になります。また、人工知能と反応予測・最適化のアルゴリズムを組み合わせることで、効率的な合成経路を生成し、特定することができます。化学反応の解析と新しい反応の発見には、反応スキームに関する豊富な専門知識が必要です。データに隠された関連性やパターンを明らかにし、反応の共通の特徴やメカニズムを見つけ出すことは、化学者が反応の基本原理を理解し、新しい反応を設計する上で非常に重要です。

このためには、化学反応に関するデータの統合とナレッジマネジメントが必要です。人工知能は、自動化されたデータ収集、整理、アノテーションを通して、化学反応に関する包括的なデータベースを構築し、化学者がデータに簡単にアクセスし、利用できるようにします。これにより、データの発見可能性と再現可能性が向上し、研究者が既存の知識をより有効に活用できるようになります。

しかし、これまでの人工知能の技術では、化学反応文献に関するデータ処理において、いくつかの課題があります。まずデータが体系的に整理されていないことがほとんどであり、複雑で膨大な文献からエッセンスとなる情報を抽出してくるのは非常に難しいタスクです。これには、人工知能が高度なコンテキスト解析能力と、テキストスタイルやコンテンツのパターン認識能力が必要になります。

そして、近年、大規模言語モデルのChatGPTの導入により、化学分野における人工知能の活用が新たな段階に進んでいます。これにより、文献マイニングの可能性が広がり、人工知能による化学探査の新しい可能性が開かれています。

従来の文献情報抽出には、手動抽出、ルールベース抽出、モデルベース抽出の方法がありますが、手動抽出は化学者の労力に依存し、コストが増大してしまい、また、ルールベース抽出は新しい文献に適応するのが難しいという課題があります。また、モデルベース抽出も、アノテーションされた反応に関するデータの不足により性能が低下することが問題となっていました。

この論文では、これらの課題を解決するために、強力な人工知能のエージェント（以下、AIエージェント）に基づくエンドツーエンドのフレームワークを提案しています。このエージェントは、「自動認識」と「推論意思決定」をベースとして大規模言語モデルを効率的に利用することで、人の労力を大幅に節約し、モデルの性能を向上させることができます。さらに、新しいマルチタスクの文献マイニングのスキームを開発し、Chat-GPTを使用して高効率なプロンプトの構築も行っています。これにより、文献データベースとのインタラクション環境が強化され、プロンプトの自動改良をすることもできます。

AIエージェントの評価には、化学反応関連の情報抽出の有効性を測定するために、精度、リコール、F1スコアを用いた新しい評価システムも提案しています。さらに、専門家と人工知能の性能を比較することで、AIエージェントの有効性を検証しています。

方法

大規模言語モデルに基づき、化学文献分析と反応情報抽出を行うAIエージェントのフレームワークの概要は以下の通りです。

AIエージェントの開発には、まず高品質な文献データセットの取得が重要になります。この論文では、特に有機化学で有名な「鈴木-宮浦カップリング」に関する文献に焦点を当てて、Sci-Hubから膨大な化学文献を収集しています。また、収集した文献をデータとして活用するため、光学文字認識（OCR）を使用しています。これにより、PDFをテキストに変換し、計算処理が可能になります。

しかし、OCRは、複雑なレイアウトや低品質のスキャンには誤りが生じることがある点は考慮が必要です。 OCRプロセスの誤りを考慮して、この論文では、データセットの信頼性を確保するために品質管理メカニズムを導入しています。各文献において、詳細な方法論を示すことが多い「General Procedure」、「Typical Procedure」、「General Experiment」といったキーワードが含まれていない場合には、品質が不十分と見なされ、データセットから除外されています。同様に、これらのキーワードが5回以上含まれている場合も、過度に複雑または煩雑な方法論を示すことが多いため、抽出プロセスに適さないと判断し、除外されています。このようなプロセスを経て、最終的に1,000件の文献からなるデータセットが得られています。

次に、文献から化学反応の条件を抽出するために、AIエージェントを使用しています。このエージェントは、化学者と同じように文献を解析し、必要な情報を効率的に抽出することができます。まず、AIエージェントは標準化されたテキストから化学情報を抽出します。これは、化学者が実験ノートから反応に関する主要データを取り出す作業に似ています。

このタスクでは、収率、反応物、触媒、溶媒、生成物に関する情報を抽出します。AIエージェントはマルチタスクフレームワークとコンテキスト内学習を用いて、これを実現しています。

AIエージェントはまず、化学文献でよく使われるキーワードやフレーズを検索することで、反応条件が記述されているテキストの箇所を特定しています。特定した箇所から情報を抽出するために、いくつかのアルゴリズムを適用することで、各反応に対する収率、反応物、触媒、溶媒、生成物情報を含むデータセットが取得しています。下図は、AIエージェントのコンテキスト内学習プロセスのプロンプト、入力例、出力例を示しています。

次に、AIエージェントでは化学文献における「共参照」の識別を行っています。共参照は、長く複雑な化学名の代わりに使われますが、機械の理解は難しいのが現状です。AIエージェントはGPTの文脈理解の能力を使い、これらの共参照を正確に特定しています。具体的には、文脈を深く解析し、共参照が一般的に使われるパターンと照合して検証しています。下図は、AIエージェントのコンテキスト内学習プロセスのプロンプト、入力例、出力例を示しています。

また、共参照を特定した後、AIエージェントはそれらを完全な化学名にマッピングしています。これにより、略語を完全な形式に変換し、文脈に依存しない情報として扱えるようにしています。エージェントは、GPTの文脈理解の能力を駆使して共参照が定義されている箇所を特定し、文の構造を解析して情報をつなぎ合わせています。このマッピングは構造化された形式で記録され、必要に応じて更新することができます。

そして、最後に、AIエージェントはテキスト内の共参照を全て対応する完全な化学名に置き換えます。これは、共参照をキー、完全な化学名を値とする辞書を作成し、テキストを処理して共参照を見つけるたびに置換するという方法で実施します。この結果、略語が全て完全な化学名に置換されたテキストが得られ、情報抽出がより正確かつ容易になります。

実験結果

AIエージェントは、化学者の効率的なサポーターとして、高品質な反応情報を迅速に取得し、時間コストを削減することが目的です。このため、性能を定量的に測定し、人間の専門家と比較することが重要です。この論文では、このフレームワークの有効性を調査するために、GPTベースの文献マイニングの手法の熟練度を評価するための新しいパイプラインを提案しています。

評価プロセスでは、鈴木-宮浦カップリング反応に関与する反応物、試薬、溶媒、生成物、収率の質を評価することに重点を置いています。そして、これを定量化するために、精度、リコール、F1スコアを用いた評価スキームを導入しています。これらの指標によって、反応情報を正確に抽出し、反応に関連する要素を包括的に検索する能力を評価しています。

ChatGPTから生成された結果を取得し、それを人間の専門家によって収集された結果と比較するために保存しています。この論文では、17の文献と326の反応を注釈付けし、AIエージェントの有効性を検証しています。その結果、下表に示されているように、平均して精度90.14%、リコール77.13%、F1スコア83.11%を達成しています。

現時点で、学術雑誌から化学反応データを抽出するための他のオープンソースツールは存在しないため、この論文では主に人間の化学者による手動データと比較して、AIエージェントの有効性と性能を検証しています。評価の主な指標は、精度、平均コスト、平均速度です。人間の化学者の不確実性とランダム性を最小限に抑えるために、化学を専門とする10人の大学院生（修士または博士課程）を選び、手動データ収集を実施しています。これらの化学専門家から得られた結果を平均して、エージェントと比較しています。下表から、AIエージェントが高い精度性能と、平均コストおよび平均速度での優れた性能を達成していることが分かります。

まとめ

この論文では、大規模言語モデルを活用して、化学文献から高精度の化学データを自動抽出するAIエージェントを紹介しています。このシステムは、精度、リコール、F1スコアで優れた性能を発揮し、データ収集と分析プロセスを効率化することで、人の労力を大幅に削減し、性能を向上させています。

AIエージェントの特徴は、文献の多様で未構造な情報に対処するための反復最適化とプロンプト生成能力です。これにより、化学データの管理と活用において専門家にも引けを取らない効率性と正確性が確認されています。この技術は、化学分野におけるデータ処理を大きく変えることが期待されます。そして、化学分野の文献マイニングにおけるAIの役割に強固な基盤を築き、材料合成や新薬発見など化学分野のさまざまな領域における進展を加速させることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。