【SciAssess】LLMの「科学文献の分析性能」を評価するベンチマーク
3つの要点
✔️ 科学文献の分析能力を評価するためのベンチマーク「SciAssess」を開発
✔️ GPT-4、GPT-3.5、Geminiの主要モデルの記憶力、理解力、分析力を評価
✔️ ベンチマークの範囲拡大とマルチモーダルデータセットの導入による今後の改善を目指す
SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis
written by Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Hongshuai Wang, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Yuqi Yin, Yaqi Li, Linfeng Zhang, Guolin Ke
(Submitted on 4 Mar 2024 (v1))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
Llama、Gemini、GPT-4など、最近の大規模言語モデルの進展は、その優れた自然言語理解と生成能力から大きな注目を集めています。これらのモデルを評価することは、その限界と可能性を明らかにし、さらなる技術の進歩を促進するために重要です。このため、大規模言語モデルの多様なスキルセットを評価するための特別なベンチマークが多数提案されてきました。これにより、より複雑なタスクにも対応できるようになっています。
一方、科学研究の分野では、大規模言語モデルの役割がますます重要になっています。特に、科学文献の分析において、大規模言語モデルは文献の要約や知識の抽出などのアプリケーションで実用化されており、研究者の生産性を向上させています。しかし、既存のベンチマークでは、科学文献の複雑で包括的な理解やマルチモーダルデータを扱うシナリオに対応しきれていません。これらのベンチマークは、科学文献が抱えるドメイン固有の専門用語や複雑な関係推論、マルチモーダル情報の統合などの課題を十分に再現できていません。このギャップを埋めるためには、科学文献分析の複雑さと特異性を正確に反映する高度なベンチマークの開発が必要です。
科学文献分析における大規模言語モデルの能力を評価するためには、次の3つの重要な要素が不可欠とされています。
- モデルの能力:ベンチマークは、望ましい能力を明確にし、それらの内在的な関係をモデル化することで、これらの能力がどのように獲得され、強化されるかを理解する手助けをします。
- 範囲とタスク:ベンチマークは、広範な科学領域を網羅し、それぞれの領域で典型的な課題とシナリオを代表するタスクを選定する必要があります。
- 品質管理:ベンチマークデータセットの品質は高く保たれ、正確で実用的な洞察を導くための信頼できる基盤として機能しなければなりません。各データポイントは、ドメインの専門家による厳格な検証を受け、その正確性と信頼性が確認される必要があります。
このような背景から、この論文では、科学文献分析のために特別に設計された新しいベンチマーク「SciAssess」を提案しています。SciAssessは、多様なタスクと質問の種類を網羅し、大規模言語モデルの能力をより詳細かつ厳密に評価することを目指しています。
SciAssessは、記憶、理解、分析と推論の3つの進行的なレベルにわたってモデルの能力を評価しています。これにより、モデルがどの部分で不足しているかを具体的に示す微細で有益な評価結果を提供しています。また、一般化学、有機電解質、合金材料、薬物発見、生物学など、さまざまな科学分野に関連する幅広いタスクを網羅しています。代表的なベンチマークを確保するために、生データは公開されている科学出版物や専門データベースから慎重に収集されており、SciAssessが現在の科学研究の状態を包括的に反映していることを保証しています。さらに、正確性と信頼性を確保するために専門家による厳格な相互検証を受けています。また、プライバシーとセキュリティを保護するために、慎重なスクリーニングが行われ、機密情報が削除または匿名化されています。これにより、SciAssessの法的および倫理的な完全性が維持されています。
SciAssessは、科学文献分析の領域における大規模言語モデルの性能を明らかにし、その強みと弱みを特定することを目的としています。これにより、大規模言語モデルが科学文献をより効果的に扱い、さまざまな科学分野の研究の進展を支援する能力を向上させることが期待されます。SciAssessから得られる洞察が、大規模言語モデルの科学文献分析能力をさらに向上させ、最終的には科学的発見とイノベーションの加速に貢献することを期待されています。
ベンチマークデータセット
科学分野における大規模言語モデルの評価基準を作成するにあたり、この論文ではモデルの能力、範囲とタスク、品質管理の3つの要素を慎重に設計しています。広く認識されているブルームの分類法を参考にして、「SciAssess」という科学文献分析のために特別に設計されたベンチマークを開発しています。この評価は次の3つの主要な能力を網羅しています。
- 記憶 (L1):モデルの広範な知識ベースを指し、科学における一般的な事実に関する質問に正確に答える能力
- 理解 (L2):与えられたテキスト内の主要な情報や事実を正確に特定し、それを理解する能力
- 分析と推論 (L3):抽出された情報を既存の知識ベースと統合し、論理的な推論と分析を行い、確固たる結論や予測を導き出す高度な能力
このベンチマークは、下表に示されるように、様々な科学的分野を網羅しています。また、モデルを評価するために、次の5種類の質問形式を設計しています。真偽質問、選択問題、表抽出、制約付き生成、および自由回答生成です。これらの質問形式の詳細と具体的な例は、以下のとおりです。
一般化学
一般化学の評価セットは、基礎知識から応用問題解決や研究分析に至るまで、大規模言語モデルの化学関連スキルを評価するために設計された包括的なタスク群です。このセットには5つの異なるタスクが含まれ、それぞれが化学および学術的理解の異なる側面を対象としています。これらのタスクを通じて、大規模言語モデルの化学の学術研究およびその原則の実際の応用に対する能力の全体像を把握できます。すべてのテストデータはOpenAIのevalsリポジトリから収集されています。
MMLU (Massive Multitask Language Understanding) は、事前学習中に習得された知識をゼロショットおよびフューショット設定で評価することで、モデルの知識を測定するための新しいベンチマークです。これにより、ベンチマークはより挑戦的になり、人間を評価する方法に似たものとなります。57の科目のうち、高校化学および大学化学を選択し、知識の記憶を評価します。プロンプトと回答の例については、以下のとおりです。
Abstract2Titleは、文献の要約セクションを使用して適切なタイトルを生成するモデルの能力をテストします。大規模言語モデルは要約セクションを理解し、それを簡潔に言い換える必要があります。生成されたタイトルの簡潔さは、以下のようにGPT-4によって評価されます。
Question Extractionは、大規模言語モデルが科学論文の要約から主要な研究質問を特定、抽出、要約する能力を評価することを目的としています。このタスクでは、大規模言語モデルが要約の内容を深く理解し、背景、目的、方法、結果、結論を含む情報を簡潔にまとめる必要があります。これは、複雑で専門的な言語を理解し、広範で詳細な情報の中から主要な焦点を見極める能力、および学術的内容を要約し再構成する能力をテストします。
これは、単なるテキストの表面的な処理ではなく、研究が解決しようとする問題、仮説、または解決しようとする課題を特定するための深い分析を必要とします。このタスクは、学術および研究環境における大規模言語モデルの有用性を評価する上で特に重要です。学術論文の要点を効率的に理解し抽出することは、文献レビュー、研究提案の作成、研究のトレンドやギャップの特定に役立ちます。これにより、膨大かつ増え続ける科学文献に取り組むプロセスが効率化され、研究者、学者、学生を支援する大規模言語モデルの可能性が強調されます。回答は、Abstract2Titleタスクと同様にGPT-4によって1から5の範囲で評価されます。
Balancing Equationsは、大規模言語モデルが化学の化学量論や質量とエネルギー保存の法則を理解し適用する能力を評価するために設計されています。化学反応式のバランス調整は、反応物と生成物の係数を調整して、各元素の原子数が反応式の両側で等しくなるようにすることも含まれています。これは物質の保存を反映しています。
このタスクは、大規模言語モデルが化学の記号言語を解釈し理解する能力をテストするだけでなく、問題解決能力や専門知識に基づく能力も評価します。化学反応式をバランスよく調整するためには、大規模言語モデルは反応物と生成物を特定し、それらの間のストイキオメトリック関係を理解し、数学的推論を適用して反応式をバランスさせるための係数を見つける必要があります。
合金材料
合金材料は、2つ以上の金属元素を一定の割合で混合したもので、金属特性を持つ材料です。合金は航空宇宙、自動車製造、建設、電気製品など多くの分野で広く利用されています。組成や製造プロセスを調整することで、特定の特性や要件を達成することが可能です。そのため、文献から合金の組成やプロセス値を抽出することは、合金設計において非常に重要です。
この論文では、合金設計に必要な情報を抽出する大規模言語モデルの能力も調査しています。文献研究に関連する包括的なタスクを設計しています。これには、合金組成の抽出、プロセス値の抽出、プロセスシーケンスの決定、およびサンプルの識別が含まれます。ここで扱うすべてのタスクの標準解答は、異なるジャーナルの文献から手動で抽出され、別の人物によって検証されています。
記事のテキストや表から合金の組成情報を抽出し、構造化することで、研究者は過去のデータをより効果的に利用し、その後の設計に有益なガイダンスを得ることができます。このタスクは、テキストや表から合金組成(すべての元素含有量)を抽出する大規模言語モデルの能力を評価しています。合金元素の抽出位置は通常2つのケースに分類されます。1つ目は、元素含有量が表に記載されている場合(下表)、2つ目は、元素含有量が合金名によって示されている場合です。例えば、『Fe30Co20Ni50』は、30%のFe、20%のCo、50%のNiの原子比を示しています。このタスクの目的は、これらの情報を包括的に抽出し、結果を表に整理することで、標準解答表と抽出結果表の一致スコアを計算することです。これにより、大規模言語モデルがマルチモーダル情報を統合、抽出、および構造化する理解能力が示されます。
また、合金の特性は、その組成と加工プロセス(処理や熱処理など)によって決まります。特に、熱処理温度の抽出は非常に重要です。このタスクの目的は、合金の熱処理における最大温度値を特定することにあります。正確な統計分析を行うために、プロンプトは複数選択式の質問形式で設計されています。以下はサンプルです。
合金処理には、各プロセスに明確な順序が求められます。そのため、抽出された熱処理プロセスの順序が実験の順序と一致していることを確認することが重要です。例えば、溶液処理の後にサンプルをさらに時効処理して、内部の応力を解放する場合があります。このタスクでは、2つの熱処理間の順序関係を客観的に分析・評価し、正誤を判断します。また、論文中に特定の熱処理名が存在しない場合はFalseと見なされます。このタスクは、テキストから処理順序を判断する大規模言語モデルの理解能力を評価するものです。モデルへのプロンプトは次のようになります。
有機材料
有機材料は、炭素ベースの分子やポリマーから作られ、多様な機能を持つため、幅広い応用に有利です。無機材料とは異なり、その性質を変更しやすく、適応性が高いことから、電子機器、フォトニクス、センサ、エネルギーなどの分野で重要な役割を果たしています。有機化学の広大な可能性を活用することで、技術の進歩を促進しています。
ここでは、有機機能材料の2つのサブフィールドである「有機電解質」と「ポリマー材料」に焦点を当てます。ポリマー材料に関しては、科学文献からポリマー材料に関連する重要な特性を抽出する大規模言語モデルの有効性を評価しています。特に、有機太陽電池における共役ポリマーの応用をケーススタディとして取り上げ、テキストと表の2つのタスクを設計しています。これにより、これらの材料に関する情報を様々なタスクから認識し、特定するモデルの能力を評価しています。
有機電解質は、特にリチウムイオン電池で広く使用されている電解液です。有機溶媒、リチウム塩、必要に応じて添加剤を含み、電池内でのイオン移動を促進し、エネルギーの蓄積と放出を可能にします。有機電解質の溶解度を理解することは、電解プロセスの効率、生成物の選択性、装置設計に直接影響するため非常に重要です。このタスクでは、溶解度に関連する表を取得するLLMの能力を調査します。電解質に関する論文では、通常、システムを説明するために様々な側面からデータを選択します。そのため、複数の表を適切な形式に統合することは非常に困難です。そこで、モデルの意味理解能力を評価し、多数の選択肢から「溶解度」に関連する最も適切で大きな表を選び、指定された形式に変換することに重点を置きます。モデルへのプロンプトは次のようになります。
有機電解質の組成と特性は、バッテリーの性能、安定性、安全性にとって非常に重要です。そこで、モデルが電解質に関連する情報を取得する能力をさらに評価するために、溶液システムの成分や溶解反応に関する物理的および化学的特性について、複数選択式の質問を行いました。これらの質問は、論文内の表に示された情報に基づいています。モデルへのプロンプトは次のようになります。
文献から電力変換効率(PCE)、開放電圧(VOC)、その他の電子特性などの重要な値を抽出します。これらの特性は通常、表形式で含まれています。大規模言語モデルを使用してこれらの特性を抽出することで、ポリマーモデリングにおけるAIコミュニティの大きな可能性を示します。例えば、コンピュータ支援によるスクリーニング、ターゲットデザイン、および最適化などが考えられます。ソースデータは、Nature Communications、Advanced Materials、Nature Photonics、Nature Commun., J. Phys. Chem, Appl. Phys. Lett.などのジャーナルから収集されています。モデルには次のようにプロンプトします。
創薬
この論文では、創薬分野における大規模言語モデルの能力も検証しています。特許や文献研究に関連する包括的なタスクを設計し、親和性データ抽出や特許カバレッジなどに焦点を当てています。
親和性データ抽出のタスクでは、大規模言語モデルが親和性テーブル(分子のタグ、SMILESにおける異なるターゲットに対する親和性を含む)を抽出する能力を評価しています。この評価タスクは、大規模言語モデルが複雑でドメイン固有の言語、分子、テーブルを理解する能力をテストします。親和性データの抽出は、テキストの表面的な処理だけでなく、異なるモダリティを一致させるための深い分析を必要とします。具体例として、出力は下表に示されています。
データセットは、さまざまなジャーナルや年代の文献を網羅するために、PubChem BioAssaysから精選されています。元のデータセットはバイオアッセイ番号ごとに整理されているため、ソースデータをDOIに基づいて統合し、その一部を慎重にサンプリングしました。これらの論文は、広範なタンパク質ターゲットおよび細胞株を網羅しており、同時に異なる形式で表が表示されています。
分子判定のタスクでは、モデルがドキュメント内で(SMILESで表現される)分子が網羅されているかどうかを判断する能力を評価します。大規模言語モデルは、すべてのマーカッシュ構造式とその置換基を認識し、必要な分子が網羅されているかどうかを判断する必要があります。
生物学
MedMCQAは、医療に関する複数選択式の質問を理解し、推論する能力を評価するために設計されたタスクです。このタスクは、臨床に関連する質問や知識評価から構成されており、人工知能システムの能力を測定することを目的としています。例えば、以下のようにモデルにプロンプトを入力します。
データセットの品質と倫理基準を保護するため、以下のような厳密な手順が取られています。
- 専門家による検証:SciAssessの正確性と信頼性を確保するために、すべてのタスクに対して複数回のクロスバリデーションが専門家によって実施されています。これにより、データセットのラベルの正確性と高い品質基準が維持されています。
- スクリーニングと匿名化:SciAssessは機密情報の徹底的なスクリーニングを受け、識別された潜在的な機密データはすべて削除または匿名化されています。これにより、プライバシー保護とデータセキュリティが確保されています。
- 著作権遵守:すべての文書およびデータに対して厳格な著作権レビュー手続きを実施し、SciAssessが知的財産権を侵害することなく、法的基準および倫理規範に準拠するようにしています。
これらの手順により、データの品質、プライバシー保護、そして法的な遵守が保証されています。
実験
科学文献の分析能力を評価した主要な大規模言語モデルは3つです。1つ目は、GPT-4です。OpenAIのGPT-4はテキスト生成と理解に優れ、画像処理、コード解釈、情報検索の機能も強化されています。これにより、科学テキストの複雑さに対応できる多用途なツールとして位置付けられています。最新バージョンのGPT-4はコードインタープリタを用いて回答を記述することができるため、最終結果を抽出するためにチェーン・オブ・ソート(CoT)を使用しています。CoTのプロンプトは以下のとおりです。
2つ目は、GPT-3.5です。GPT-4に先行するOpenAIのGPT-3.5は高度な言語処理能力で際立っており、複雑なテキストへの効果的な対応が可能です。3つ目は、Geminiです。Google DeepMindのGeminiモデルファミリーは、テキスト、コード、画像、音声の解析を統合するマルチモーダル理解に優れています。特にMMLUテストでの性能が顕著で、Gemini-1.0-Ultraは人間のベンチマークを上回ります。しかし、現時点ではAPIを受け取っていないため、Gemini-1.0-Proを評価しています。科学文献の理解と合成に優れたこのモデルは、学術研究における高度なツールであり、科学文献の分析において洞察を提供し、生産性を向上させます。
SciAssessは、openai/evals(https://github.com/openai/evals)によって提供されるフレームワークの改良版に基づいています。また、この論文では、モデルの呼び出し(例:Gemini)、カスタムタスクおよび評価指標、データセット、およびPDF処理モジュールなどの追加機能を組み込み、詳細なコードを近日中に公開する予定としています。
SciAssessの主要な部分は学術文献に焦点を当てており、文献PDFの処理には異なる手法を用いています。
- GPT-4:WebベースのChatGPT4インターフェースを利用し、元のPDFファイルをチャットインターフェースに直接アップロードして質問を投げかけ、OpenAIの内蔵PDF処理機能を活用します。
- GPT-3.5:PyPDF2を使用してPDFをテキストに変換し、その後、プレーンのテキストをモデルに入力します。
- Gemini:テキストと画像を同時に処理する能力に優れているため、まずPyPDF2を使用してPDFからテキストを抽出し、次にPyMuPDFを使用して文書内の画像を取得し、それらを読み取り順に並べて、テキストと画像の両方をモデルに送ります。
ここでは、記憶、理解、分析の能力に焦点を当て、マルチモーダルコンテンツを含むタスクと含まないタスクの両方における大規模言語モデルの性能を様々な科学分野で分析しています。
下表に要約された様々な科学分野における大規模言語モデルの全体的なパフォーマンス比較から、それぞれのモデルの明確な強みと弱みが明らかになっています。
GPT-4はほぼすべての分野で他のモデルを一貫して上回り、総合平均順位で最高を獲得しています。これは、複雑な科学文献を理解する優れた適応性を示しています。GPT-3.5はGPT-4に遅れを取りますが、広範なタスクでの有能さを示しており、その堅牢性がうかがえます。Geminiは全体のランキングでは3位ですが、特定のタスクにおいてその強みを示しています。
多くの科学分野にわたり、GPT-4はほぼすべての領域で優れたパフォーマンスを示し、生物学分野ではGeminiと同等の評価を得ました。これは、科学文献を理解するGPT-4の優れた能力と高い適応性を強調しています。Geminiは総合的に3位にランクインしていますが、生物学分野ではGPT-4と同等のパフォーマンスを発揮しており、特定のドメインでの潜在的な強みを示しています。
薬剤発見の分野では、「Tag2Molecule」のタスクにおいて全モデルがゼロに近いスコアを記録し、すべてのモデルが高度に専門的な化学内容や複雑な分子構造変換を扱う能力に限界があることを示しています。これらの発見は、特定の科学分野内での各モデルの強みと限界を明らかにし、今後のモデル改良に貴重な洞察を提供しています。
記憶力 (L1)は、モデルが以前に学んだ情報を思い出す能力を示します。この点で、GPT-4は最高の平均順位を示し、その優越性を証明しています。例えば、「MMLU 高校化学」タスクでは、GPT-4は基礎的な化学知識の正確な再現を示し、0.591の正確度で他のモデルをリードしました。このGPT-4の優位性は、広範な学習データセットによって、より多くの科学知識分野をカバーできることに起因している可能性があります。
理解力 (L2)は、モデルの複雑なテキストの理解と重要な情報を抽出する能力を測定します。GPT-4は理解力においてもリードしており、複数のタスクで卓越したパフォーマンスを発揮しています。例えば、「Abstract2Title」タスクでは、GPT-4はモデル評価スコアで0.99を記録し、トップにランクインしています。これにより、テキスト内容の深い理解と関連するタイトルの正確な生成能力が示されています。
分析と推論 (L3)は、モデルが複雑な問題を処理し、推論し、解決策を生成する能力を指します。GPT-4はこの能力においてわずかにリードしており、平均順位1.75を示しています。これは、知識を応用して状況を分析し、結論を導き出す能力の高さを示しています。例えば、「Sample Differentiation」タスクでは、GPT-4は0.528の正確度を達成し、GPT-3.5(0.177)およびGemini(0.059)を大きく上回っています。
まとめ
SciAssessは、科学文献の分析における大規模言語モデルの能力を厳密に評価することを目的としています。このベンチマークでは、一般化学、合金材料、有機材料、薬剤発見、生物学などの特定の科学分野において、大規模言語モデルの記憶力、理解力、分析力を評価しています。GPT-4、GPT-3.5、Geminiなどの主要なモデルを詳細に評価し、各モデルの強みと改善が必要な点を明らかにしました。この研究により、科学研究の分野での大規模言語モデルの発展を強力に支援しています。
著者らは、今後は、ベンチマークテストの対象となる科学分野をさらに拡大し、より複雑なマルチモーダルデータセットを取り入れることで、ベンチマークの有用性と効果を大幅に向上させること目指しているとしています。これにより、大規模言語モデルの利用を促進され、さらなる科学研究とイノベーションの進展に貢献する明確な指針が提供されることが期待されます。
この記事に関するカテゴリー