最新AI論文をキャッチアップ

数学質問応答における大規模言語モデル「GPT-4」の実力

数学質問応答における大規模言語モデル「GPT-4」の実力

Large language models

3つの要点
✔️ GPT-4は、MSEの質問に対して高いスコアを達成し、他のモデルを上回る成果を示す
✔️ 大規模言語モデルは自然言語タスクで優れた性能を発揮するが、数学的推論では依然として課題があり、複雑な質問への精度が低下
✔️ ArqMATHデータセットを用いて6つのモデルを評価し、回答生成と質問-回答比較を通じてGPT-4の強みと弱みを明確化

Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange
written by 
Ankit Satpute, Noah Giessing, Andre Greiner-Petter, Moritz Schubotz, Olaf Teschke, Akiko Aizawa, Bela Gipp
(Submitted on 30 Mar 2024)
Comments: Accepted for publication at the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR) July 14--18, 2024, Washington D.C.,USA.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Information Retrieval (cs.IR)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

大規模言語モデル(LLM)は、自然言語タスクを解決する能力があり、タスクによっては、人間に近い精度を持つため注目を集めています。これらのモデルは、翻訳やコード作成、専門試験の合格など、多岐にわたるタスクで優れた成果を上げており、知識抽出やアイデア生成、データの処理・比較など、さまざまな分野で利用されています。また、大規模言語モデルは自然言語で質問に対して人間のような回答を提供する質問応答(QA)タスクでも成功を収めています。QAにおける大規模言語モデルの評価は、どの程度正確に回答を生成するかを検証し、幻覚(ハルシネーション)を起こす可能性のあるケースを見つけるのに有用とされています。

また、近年注目を集めている科学、技術、工学、数学(STEM)分野において、数学的な内容が重要であることを考えると、大規模言語モデルが数学言語にどのように対応できるかを評価することも重要な課題です。数学は、その厳密な論理と抽象的な概念により、記号と構文を複雑に組み合わせた専門的な言語で伝えられます。自然言語とは異なり、数学的表現は明示されていないルールや仮定に依存し、明確な知識と高い精度が求められます。これにより、数学的推論は最新の言語モデルでも依然として大きな課題とされています。

この論文では、数学のオープンエンドな質問(はい/いいえで答えられない質問)に対する大規模言語モデルの能力を調査しています。Math Stack Exchange(MSE)というプラットフォームから多様な数学の質問を利用し、理想的なテスト環境を用意しています。MSEには、初等レベルから高度な数学までの質問が含まれており、正しい数学的原則の適用と、複雑な推論を明確かつ理解しやすく説明することが求められます。オープンエンドな質問に焦点を当てることで、数学的概念の深い理解を促進し、大規模言語モデルの数学的推論能力の進捗を測定するためのベンチマークを提供しています。

さらに、生成された回答を評価し、ケーススタディを通じて課題を明らかにし、自然言語と数学言語の理解のギャップを埋めるために大規模言語モデルの今後の方向性を考察しています。

データセットと手法

Mathematics Stack Exchange(MSE)の質問に対する回答を手動で検証するには、質問の多様性と専門知識が必要なため現実的ではありません。そのため、ArqMATH競技会のデータセットを使用しています。このデータセットは、MSEの質問と回答のペアを集めたもので、第3回競技会の[タスク1]では、大学レベルの数学の78件の質問に関連する回答をMSEから取得することに重点が置かれています。評価は学生によって行われ、各トピックごとに平均450の回答が評価されています。

今回の評価では、6つの大規模言語モデル(ToRA、LLeMa、GPT-4、MAmmoTH、MABOWDOR、Mistral 7B)を用いています。また、実験は2つのシナリオで行われています。

1つ目のシナリオ(回答生成)では、選定した大規模言語モデルを使用してMSEの質問に回答する2段階の手順を実行しています。まず、78件の質問を大規模言語モデルに与えて回答を生成しています。ただし、MABOWDORはBERTベースのDense Passage Retrievalを使用しているため、埋め込みしか生成できません。その後、生成された回答を埋め込みとしてインデックスし、ArqMATHの他の全ての回答を検索して、最も類似した回答を見つけています。

2つ目のシナリオ(質問-回答比較)では、選定した大規模言語モデルを使用してArqMATHの全ての潜在的な回答の埋め込みを生成し、同様に78件の質問の埋め込みも生成しています。そして、最終的に、質問に最も類似した回答を見つけています。

性能評価 

ここでは、Mean Average Precision(mAP)、Precision@10(P@10)、normalized Discounted Cumulative Gain(nDCG)、Binary Preference(BPref)を使って、評価結果を示しています。これらのスコアはすべてArqMATHデータセットの評価済み回答から得られています。

まず回答生成では、選定した6つのモデルを使用して回答を生成しています。生成された回答をクエリとして使用し、ArqMATHの回答プールから関連する回答を検索しています。検索にはDPRのベクトルエンベディングとコサイン類似度を使用しています。

下表にすべてのモデルの比較結果が示されています。結果は、数学タスクに特化して調整されたモデルがDPRベンチマークよりも劣っていることを示しています。特に、モデルサイズを大きくしても結果は向上していません。MATHデータセットで最も低いスコアを示したMistralモデルは、Tora-7bと同等の性能を示しています。これは、MATHデータセットで優れた性能を示すモデルが特定のタスクに過適合している可能性を示唆しています。

一方、GPT-4の生成した回答はP@10のスコアにおいて、DPRのベースラインを上回り、ArqMATH3 Task1で現在の最高アプローチであるMABOWDORを上回る結果を示しています。

また、質問-回答比較では、埋め込みを使用して質問と最も関連性の高い回答を一致させることに焦点を当てています。モデルは元々プロンプトベースの回答を目的として設計されているため、埋め込みの生成を容易にするための調整が必要です。そのために、「このテキストの意味を一言で表すと: 」というプロンプトを前置し、最後のトークンの埋め込みを使用しています。また、大規模言語モデルをガイドするために、次のような数学関連のサンプル回答を3つ導入しています。

1つ目は、「このテキスト: ‘’ は一言で言うと: ‘期待値’」
2つ目は、「このテキスト: ‘’ は一言で言うと: ‘円’」
3つ目は、「このテキスト: ‘楕円の中心とその2つの焦点の間の距離’ は一言で言うと: ‘離心率’」
 

再ランキングのために、各クエリに対してMABOWDOR によって決定された上位10件の結果に焦点を絞っています。Zhongらの考察を参考に、Tora-7bの性能がArqMATHの平均的なアプローチと比較して劣っているため、すべてのシステムを回答の再ランキングで評価していません。LLeMaとMAmmoTHがMATHとGSMのベンチマークでToraに劣っているため、その再ランキングの有効性は低いと予想されました。分析の結果、Tora-7bのPrecision@10は、前述の表に示されるすべての実行よりも劣っていることが明らかになりました。これは、質問と回答の埋め込みを比較することが、関連する回答の検索問題を解決しない可能性を示しています。

ケーススタディ:GPT-4とDPRのパフォーマンス比較

ここでは、数学とコンピュータサイエンスの専門知識を持つ2人のアノテーターが、選定された質問に対するGPT-4の回答生成の性能を評価しています。評価には、純粋および応用数学に関する多言語の要約・レビューサービスであるzbMATH Open2を参照しています。主な焦点は、GPT-4とDense Passage Retrieval(DPR)の検索性能の比較です。特に、GPT-4が検索精度を向上させた質問と、DPRがGPT-4を上回った質問に着目しています。

下図は、DPRとGPT-4のP@10の差異の頻度(P@10GPT−4 - P@10DPR)表しています。下図に示されている分析結果の通り、Mathematics Stack Exchange(MSE)の78件の質問のうち38件でGPT-4が精度を向上させ、MSEのオープンエンドな数学質問に対する関連する回答を生成する能力があることが示されています。

また、下図に示されている質問に対するGPT-4の回答は、P@10を0.0(DPR)から0.6に向上させています。DPRによる最初の検索結果には二項係数が含まれていませんが、GPT-4の結果には少なくとも𝑛の展開が含まれています。DPRは文脈なしでは式の意味を推測できないため、GPT-4は基礎となる式を良く理解していると言えます。

さらに、下図に示されている質問に対するP@10は、DPRの0.5からGPT-4の0.1に低下しています。GPT-4の回答は、投稿者が質問している特定の行がどのように前提から導かれるかを説明していないため、ポイントを外しています。GPT-4が生成した回答が検索システムを誤った方向に導くパターンが観察されています。取得された回答は、曲線に対する接線の概念の一般的な説明を提供するだけであり、これはGPT-4の回答の一部に相当します。これにより、GPT-4は数学的概念間の複雑な相互作用に関する質問には回答できないことが示されています。


さらに、小型モデル(基本的にGPT-4以外のすべてのモデル)から得られた回答は質が非常に低く、プロンプト形式を誤解し、回答が一貫性に欠ける傾向があることがわかりました。いくつかの質問では、エンドオブシーケンストークン以外の出力は生成されません。一方、MistralはToraよりも会話調を保つのが得意であり、推論もより構造化されていることがわかります。ただし、数式はLaTeX形式で記述されておらず、入力変数の誤りがあり、質が低くなっています。

また、以下の質問と比較して、Tora-7b-Codeの回答を使用するとPrecision@10が0.5から0.8に向上することがわかりました。下図では、Toraは実際の回答ではなく、MSEに通常存在するスレッドをシミュレートしています。回答としては一貫性がなく、論理的に間違っています。


以上が、GPT-4、DPR、Tora-7b-Codeの性能に関するケーススタディの概要です。この論文では、各モデルの強みと弱みを浮き彫りにし、今後の改良に向けた貴重な知見を提供しています。

まとめ 

この論文では、大規模言語モデルがMathematics Stack Exchange(MSE)の質問にどれだけ対応できるかを検証しています。まず、MSEの多様でオープンエンドな質問に対して、Math Question Answer(MathQA)データセットで高い性能を示すSOTAの言語モデルで評価を行っています。その結果、GPT-4はnDCGスコア0.48、Precision@10(P@10)スコア0.37を達成し、他のモデルを上回る成果を示しています。特にGPT-4は、ArqMATH3 Task1において、非常に高い視能を示しています。

さらに、GPT-4の効果を詳しく評価するためのケーススタディを行っています。従来のMathQAデータセットで優れた性能を収めた大規模言語モデルは、不正確な回答を生成することが多いことが判明しています。一方、GPT-4は単純な数学の質問に対して適切な回答を生成する能力を示していますが、より複雑で専門知識が必要な質問に対しては精度が低下することがわかります。

著者らは、研究コミュニティの発展のため、大規模言語モデルが生成した回答と実験で使用したコードを公開しており、さらなる調査と分析が進むことを期待しています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする