ChatGPTの数学スキルに迫る

ChatGPT 2024年01月29日

3つの要点
✔️ LLMの数学的機能をテストする新しいデータセット「GHOSTS」の提案。
✔️ LLMを数学者の作業にどのように統合できるかを提示する。
✔️ アップグレードの新旧比較と、GPT-4のパフォーマンス向上について実験を実施。

Mathematical Capabilities of ChatGPT
written by Simon Frieder, Luca Pinchetti, Alexis Chevalier, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz, Philipp Christian Petersen, Julius Berner
(Submitted on 31 Jan 2023 (v1), last revised 20 Jul 2023 (this version, v2))
Comments: Added further evaluations on another ChatGPT version and on GPT-4. The GHOSTS and miniGHOSTS datasets are available at this https URL
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、ChatGPTとGPT-4と呼ばれる2つの言語モデルの数学的な性能を検証しています。新しい手法を使い、公開データセットと独自に作成されたデータセットでテストしました。通常の数学の形式的なデータベースではなく、自然言語で表現された数学の問題に焦点を当てました。

研究者たちは、現在のデータセットが主に初等数学に焦点を当てているか非常に小さい範囲しかカバーしていないことに対処するために、GHOSTSとminiGHOSTSと呼ばれる2つの新しいデータセットを導入しました。これらは大学院レベルの数学を対象にしており、数学の様々な側面を区別することを目指しています。

これらのデータセットは、数学者の日常的な活動を模倣して、ChatGPTとGPT-4がプロの数学者にどれだけ役立つかを評価しました。さまざまな詳細なパフォーマンス指標に基づいてモデルをベンチマークし、高度な数学の理解において最も詳細な評価作業が行われました。

結果として、ChatGPTは数学的な検索エンジンとして機能し、数学的アシスタントとして非常に有用であることが示されました。一方で、GPT-4は学部レベルの数学には適していますが、大学院レベルの難易度では成功しないことが分かりました。報道においては解答能力に関する肯定的な報道があるものの、全体的な数学的なパフォーマンスは大学院生の期待を下回っていると指摘されています。したがって、大学院レベルの数学試験に合格するためには、平均的な同僚の学習を参考にすることが勧められています。

導入

ChatGPTは質疑応答対話システムとして有名で、医師免許試験や心理学のIQテスト、運用管理試験など様々な試験で高いパフォーマンスを発揮しています。GPT-4もChatGPTを上回る性能を示しています。

この論文では、新しいデータセット「GHOSTS」を導入し、ChatGPTの数学的機能を詳細に分析します。また、GPT-4についてもminiGHOSTSと呼ばれる小規模なデータセットで評価します。これにより、これらのモデルが数学的な理解にどれだけ寄与できるかが検証されます。

データセット

データセットはGHOSTSと呼ばれ、さまざまな数学的な難易度や問題の種類をカバーしています。具体的なサブデータセットにはGrad-Text、Holes-in-Proofs、Olympiad-問題解決、シンボリック積分、MATH、検索エンジンの側面、Theorem Proof Completionが含まれています。

Grad-Text (卒業論文テキスト):
学位論文に関するテキストデータセット。数学に関連するテーマやトピックに焦点を当てています。数学の卒業生が執筆した論文の文書を含んでいる可能性があります。
Holes-in-Proofs (証明の欠陥):
数学の証明に関するデータセットで、特に証明の中に存在する不完全さや欠陥に焦点を当てています。証明の完備性や論理の誤りなどが含まれる可能性があります。
Olympiad-問題解決 (数学オリンピック問題解決):
数学オリンピックで出題される問題と、それに対する解答や解法に関するデータセット。数学の問題解決スキルを測るための質問が含まれています。
シンボリック積分:
数学のシンボリック積分に関するデータセット。異なる数学的関数や式に対する積分を含み、シンボリック計算のタスクに焦点を当てています。
MATH:
一般的な数学的なテキストや問題に関する包括的なデータセット。数学のさまざまな分野やトピックにわたる質問や情報が含まれている可能性があります。
検索エンジンの側面:
数学に関する検索エンジンの運用や機能に焦点を当てたデータセット。数学的な情報を検索するためのクエリや検索結果に関するデータが含まれています。
Theorem Proof Completion (定理の証明完了):
数学の定理や命題に関するデータセットで、証明が不完全な状態から完全な状態への補完を行うタスクに焦点を当てています。数学的証明の構造や論理を理解するための情報が提供されています。

研究者たちは、プロンプトとモデルの出力を評価するために、数学の専門家によって手動でラベル付けされたデータポイントを使用しました。データセットの作成には数学的な洞察が必要であり、研究者たちの詳細な数学的な評価も行われました。データセットの構築には数百時間かかり、合計1636のプロンプトが含まれています。

この研究は、ChatGPTが数学的な推論にどれだけ対応できるかを明らかにするために行われました。データセットは、数学のさまざまな側面を包括的に評価するために作成され、既存のデータセットを超える豊富な情報を提供しています。

実験結果

ChatGPTは、大学の数学の授業においては平均的な成績を収めるものの、難しい演習や数学オリンピックのような高度な問題には苦労することが示されました。ただし、基本的な数学的事実を述べるタスクでは、一般に良い成績を収めました。

2023年1月9日のバージョンのChatGPTは、平均評価3.20を達成し、特に証明ベースの質問や複雑な記号計算には苦労しました。しかし、質問のコンテキスト認識や表記の一致に優れており、簡単な数学的なタスクに対しては高いスコアを獲得しました。

一方で、GPT-4はChatGPTよりも高いパフォーマンスを示し、miniGHOSTSデータセットでは平均3.50を達成しました。これにより、GPT-4はより高度な数学的な問題にも対処できることが示唆されました。

図1では、各モデルの評価が示されています。特にGPT-4が他のモデルを凌駕しており、平均評価が4.15であることが強調されています。

このサンキー図は、様々なモデルが評価された様子を視覚的に示しています。上から下に進む流れは、評価が2023年1月9日のChatGPTから2023年1月30日のChatGPT、そしてGPT-4に進化していく様子を表しています。各モデルの評価に応じて、サンキー図は異なる幅の帯で表現され、それぞれの評価の割合を示しています（５の方が良いスコア）。1月9日のChatGPTと1月30日のChatGPTのモデル間では、グレードがシャッフルされていますが、全体的なパフォーマンスはほぼ同じままです。

一方で、GPT-4では完全評価（スコア5）が大幅に増加していることが観察されます。この図を通じて、異なるモデルの進化やパフォーマンスの変化が一目で理解できるようになっています。要するに、ChatGPTは基本的な数学タスクには適していますが、高度な数学の問題には限定的です。GPT-4はその進化版であり、より難しい問題に対処でき、全体的な数学的な能力が向上しています。