数学教育を変革するAI、大規模言語モデルを活用した数学問題解決の可能性と課題

Large language models 2024年10月16日

3つの要点
✔️ 大規模言語モデルが複雑な数学問題を解決する上で重要な役割を果す
✔️ 現在のLLMの数学問題解決において、統一的な評価の枠組みの欠如や、異なる問題タイプへの適応性が問題
✔️ 教育的観点からの大規模言語モデルの活用

Large Language Models for Mathematical Reasoning: Progresses and Challenges
written by Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin
(Submitted on 31 Jan 2024 (v1))
Comments: EACL 2024 Student Research Workshop.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

数学的推論は人間の知能にとって不可欠な要素です。AIのコミュニティでは、数学の課題に取り組む方法を模索し続けており、この追求のためにはAIの能力を一層向上させる必要があります。テキスト理解から画像解釈、表の分析、記号操作に至るまで、さまざまな複雑な領域への深い理解が求められています。AI技術の進化とともに、機械が数学の多様な側面を総合的に理解することは、単に技術的な成果を超え、より汎用的で適応性の高いAIへと進むための重要なステップとなります。

特に、大規模言語モデルの登場はAIの分野を大きく変え、複雑なタスクの自動化において強力なツールとしての地位を築いています。大規模言語モデルは、数学問題解決における微妙なニュアンスを解明するための貴重な資源としてその能力を証明しています。これらのモデルは、言語と論理の相互作用を探る新たな方法を提供し、この分野の探索を促進しています。

しかし、この分野の進展にもかかわらず、現在の大規模言語モデルベースの数学研究は難しい状況にあります。多種多様な問題タイプと、それを評価するための基準やデータセット、技術が多岐にわたり、これが状況をさらに複雑にしています。統一的な枠組みがないことが、この進化する分野での進捗を正確に評価し、継続的な課題を理解することを難しくしています。

この論文は、数学における大規模言語モデルの利用に焦点を当て、その複雑な状況を明らかにすることを目指しています。数学問題のタイプと関連データセットの詳細な探索、大規模言語モデルによる問題解決技術の進化、問題解決に影響を与える要因の分析、そしてこの急成長している分野における持続的な課題についての洞察を提供しています。これにより、大規模言語モデルがどのように数学的推論を推進しているか、全体的な理解を深めることができます。また、言語と論理の複合領域において、未踏の領域を探ることにより、新たな示唆を提供しています。

数学の問題とデータセット

ここでは、主な数学問題のタイプとそれに関連するデータセットについて、算数、数学の文章問題、幾何、自動定理証明、視覚コンテキストにおける数学といった、主要な数学問題のタイプとそれに関連するデータセットについて簡潔に紹介します。

以下は、算数の問題です。これは純粋な数学的操作や数値の操作を要求し、テキスト、画像、その他の文脈要素の解釈を必要としません。

問題（Q）: 21 + 97
回答（A）: 118

このような問題形式は、直感的で理解しやすい算数の基本を反映しています。データセット「MATH-140」（Yuan et al., 2023）には、17の異なるグループから成る401の算数表現を収録しており、多様な算数問題に対する理解を深めるのに役立ちます。

算数は数学の基礎を形成し、このカテゴリのクリアな問題設定は、数学的思考の初歩を学ぶ上で非常に効果的です。それぞれの問題は、具体的な数値操作の理解を促進するための設計となっており、実世界の計算技能を養う基盤となります。

次は、数学の文章問題（MWP）です。これは、直接的な方程式の形ではなく、書かれた文章や口頭での説明を通じて問題が提示されます。これらの問題では、提供された情報から重要な数学的概念を見抜き、適切な方程式を設定して解を導き出す洞察力が求められます。数学の文章問題は実世界の状況を模倣しており、日常生活で直面する問題に数学的原理を応用する能力を養います。これらには、次のような問題があります。

1つ目は、問題-回答の形式です。

（例）リリーは母親から20ドルをもらいました。本に10ドル、キャンディーに2.5ドルを使った後、彼女にはいくら残っていますか？（答え）7.5ドル

2つ目は、問題-方程式-回答の形式です。これは、方程式を提供し、より明確な数学的解決策を示します。

（例）ジャックは8本のペンを持っており、メアリーは5本持っています。ジャックがメアリーに3本を渡した後、ジャックには何本残っていますか？（方程式）8 − 3（答え）5

3つ目は、問題-根拠-回答の形式です。これは、推論のプロセスを明確にし、複雑な問題解決を導く説明を提供します。

（例）ベスは週に4ダース or 2ダースのクッキーを焼きます。これを16人で分けると、一人当たり何枚のクッキーになりますか？（根拠）ベスは合計で4×2=8ダースのクッキーを焼き、1ダースに12枚あるので、96枚のクッキーを作ります。それを16人で分けると、一人当たり6枚です。（答え）6

これらの数学の文章問題は、基本的な計算能力だけでなく、情報を解釈し、適用するための批判的思考力も養います。さまざまなタイプの数学の文章問題が存在し、それぞれに異なる学習機会と挑戦が含まれています。これにより、数学をより広い文脈で理解し、活用する力が身につきます。

下表には、問題-回答、問題-方程式-回答、問題-根拠-回答の3つのカテゴリに分類されるほとんどのデータセットを記載しています。なお、下表のアルファベットは、次のとおりです。E = Elementary, M = Middle School, H = High School, C = College, H = Hybrid。

次は、表形式の数学問題（TABMWP）です。表形式の数学問題は、オープンドメインで表形式の文脈に基づいた数学問題を扱う初のデータセットです。このデータセットは規模が大きく、各問題は画像、半構造化テキスト、または構造化された表のいずれかの形式で表現されています。

（例）ヘンリックは2.5キログラムのオーバルビーズを買いました。彼はいくら支払いましたか？（単位：$）（答え）5

また、数学の文章問題の生成についても触れています。この分野では、単に数学問題に答えるのではなく、新しい問題を生成する技術が開発されています。GPT-2やGPT-3のような進化したモデルは、特定の方程式から数学の文章問題を創出する訓練を受け、問題生成の効果を検証しています。研究によれば、GPT-4は人間が書いた問題を改稿し、可読性や語彙の多様性を高める一方で、よりマイナーな単語を使用する傾向があります。

このような進歩は、数学教育やAIの学習において、よりダイナミックで実践的なアプローチを提供します。これにより、実世界の問題解決能力の向上だけでなく、AIの適用範囲と効率も飛躍的に拡大します。

次は、幾何です。幾何学の問題は、数学の文章問題とは異なる難しさがあります。数学の文章問題が論理的推論や算数操作を中心に展開されるのに対し、幾何は形状、大きさ、それらの相互関係の空間的理解を要求します。幾何問題の解法には、幾何学の原則、定理、公式の適用が必須であり、これにより図形の特性を分析し、導き出します。

現代の幾何学では、象徴的な方法や事前に定義された探索ヒューリスティックが主に利用されています。これは、幾何学が要求する特化した戦略を示しており、この分野の専門性が求められることを示しています。このような問題解決アプローチの違いは、数学的課題の多様性と、異なる数学領域で求められるスキルセットの幅広さを示しています。

（例）a=7インチ; b=24インチ; c=25インチ; h=5.4インチ; この図形の面積は何平方インチですか？（答え） 24.03平方インチ

主要なデータセットが記載された下表も参照し、幾何学の問題解決に役立つリソースを提供します。これにより、読者は幾何学の複雑な問題に対する理解を深め、実際の計算や設計に応用することができます。

自動定理証明（ATP）は数学の専門分野であり、特定の予想に対する証明を自動的に構築することを目指しています。この分野では、論理分析と形式言語の深い理解、そして広範な知識ベースが求められるなど、独自の挑戦が存在します。ATPは特に、ソフトウェアやハードウェアシステムの検証と開発において重要な役割を果たします。

主要なデータセットとして、MINIF2Fデータセット（Zheng et al., 2022）、HOListベンチマーク（Bansal et al., 2019）、COQGYMデータセット（Yang and Deng, 2019）があります。これらのデータセットは、自動定理証明における多様な方法論とスキルセットを示し、数学問題の解決に関する多面的な性質を反映しています。ATPの進化は、数学だけでなく、多くの実用的な技術領域においても新たな可能性を開いています。

最後は、視覚言語コンテキストにおける数学問題です。この分野の研究とデータセットは、数学的推論の複雑さと多様性を示しています。

主要なデータセットとして、CHARTQA（Masry et al., 2022）、MATHVISTA（Lu et al., 2023a）があります。これらのデータセットは、視覚的な情報を言語的に解析し、数学的問題を解決するための複数の推論手法を活用する方法を示しています。視覚言語コンテキストにおける数学は、特にデータの視覚化が重要な役割を果たす現代において、教育や研究における新たな潮流となりつつあります。

分析：数学における大規模言語モデルの堅牢性

大規模言語モデルが導入される前の数学の文章問題の解決ツールは、主にLSTMを搭載したエンコーダーデコーダーモデルに依存していました。これらのモデルは、単純なベンチマークデータセットでの高性能を達成するために、表層的なヒューリスティックを用いていました。続く研究で、より挑戦的なデータセット「SVAMP」が導入され、これは以前のデータセットからサンプルを選び、慎重に変更を加えることで作成されました。

その後、2023年の研究では、CMATHデータセットの元の問題に気を散らす情報を追加し、複数の大規模言語モデルの堅牢性を評価しています。結果として、GPT-4は他のモデルが失敗する中、堅牢性を保つことができています。また、大規模言語モデルの数学解決能力の堅牢性を評価する新しいデータセット「ROBUSTMATH」を提案されています。その広範囲にわたる実験からは、高精度な大規模言語モデルからの敵対的サンプルが低精度の大規模言語モデルを攻撃するのにも有効であり、複雑な数学の文章問題は特に攻撃に対して脆弱であること、そして敵対的サンプルを用いた少数ショットのプロンプトが数学の文章問題の堅牢性向上に寄与することが示されています。

分析：数学における大規模言語モデルに影響を与える要因

2023年の研究による包括的な評価では、OpenAIのGPTシリーズ（GPT-4、ChatGPT2、GPT-3.5）および様々なオープンソースの大規模言語モデルが対象とされています。この分析では、大規模言語モデルの算数スキルに影響を与える要因、例えばトークナイゼーション、事前訓練、プロンプティング技術、内挿と外挿、スケーリング法則、思考の連鎖（COT）、コンテキスト内学習（ICL）などが系統的に調べられています。

2023年の研究による包括的な評価では、トークナイゼーションが大規模言語モデルの算数性能において重要な役割を果たすことを強調しています。特に、T5のように算数専用のトークナイゼーションを持たないモデルは、GalacticaやLLaMAのような進んだ方法を用いるモデルに比べて効果が低いとされています。これは、事前学習でのトークンの頻度とトークナイゼーションの方法が算数の能力にとって決定的であることを示しています。

また、大規模言語モデルの高度な算数スキルは、事前学習データに含まれるコードやLATEXとの相関があります。例えば、大量のLATEXを使用しているGalacticaは算数タスクで優れた性能を示していますが、理論的推論に優れたCode-DaVinci-002のようなモデルは算数で遅れが見られ、算数スキルと推論スキルの区別が強調されています。

入力プロンプトの性質は、大規模言語モデルの算数性能に大きく影響します。プロンプトが欠けると性能は低下し、教育的なシステムレベルのメッセージに反応するChatGPTのようなモデルは、プロンプトのタイプの重要性を示しています。事前学習における指導的チューニングも重要な要因です。

さらに、モデルの規模について、パラメータ数と大規模言語モデルの算数能力との間には明確な相関関係が存在します。一般的に大きなモデルは性能が良いものの、Galacticaが示すように30Bと120Bパラメータでの性能プラトーも観察されます。しかしこれが常に優れた性能を意味するわけではなく、ChatGPTのような小さなモデルが大きなものを上回ることがあります。

分析：数学における教育学の視点

機械学習において、大規模言語モデルは数学の問題解決能力が強調されますが、実際の教育現場では、学生の学習をサポートすることが主な役割となっています。そのため、単に数学的パフォーマンスを向上させるだけでなく、学生のニーズ、能力、および学習方法をどのように理解するかが重要な考慮事項となります。数学教育における大規模言語モデルの利点として、以下のものが挙げられています。

批判的思考と問題解決スキルの促進：大規模言語モデルは包括的な解答を提供し、厳密なエラー分析を通じて学生の批判的思考と問題解決スキルを養います。
詳細で順序立てられたヒント：教育者と学生は、大規模言語モデルが生成する明確で一貫したナラティブを持つ詳細なヒントを好むと報告しています。
会話スタイルの導入：大規模言語モデルは問題解決プロセスに会話スタイルを導入することで、数学教育における重要な資産となっています。
深い洞察と理解の提供：大規模言語モデルの活用は計算支援を超え、代数、微積分、統計学などの分野で深い洞察と理解を提供します。

また、一方で、数学教育におけるナラティブの欠点として、以下のものが挙げられています。

誤解の可能性：大規模言語モデルが学生の質問を誤解したり、説明ミスをしたりすることで混乱を招くことがあります。これは誤解を強化し、教育の質を損なう可能性があります。
個々の学習スタイルへの対応の限界：大規模言語モデルはアルゴリズムに依存しており、各学生の独特なニーズを完全に把握するのが難しいことがあります。特に、実地活動や視覚支援が有効な学習者には十分なサポートを提供しきれない場合があります。
プライバシーとデータセキュリティの課題：大量の学生データを収集・分析する際、適切な安全対策が欠如していると、データの不正アクセスや悪用によるプライバシー侵害のリスクが生じます。

まとめ

現在の研究のトレンドは広範なデータセットのキュレーションに注力していますが、異なるデータセット、学年レベル、数学問題のタイプに対する堅牢な一般化が不足していることは課題として残ります。これに対応するため、人間が数学解決スキルをどのように獲得するかを調べることから、マシンがその能力を向上させるために継続的な学習を採用する必要があるかもしれません。

また、大規模言語モデルは数学推論において、いくつかの脆弱性を露呈しています。異なるテキスト形式で表現された質問に対して不一致なパフォーマンスを示すこと、同一の質問に対して複数の試行で異なる結論に達すること、そして敵対的入力に対する脆弱性がこれに含まれます。

現在の大規模言語モデルベースの数学推論は、実際のユーザーのニーズや理解能力を充分には考慮していません。特に、GPT-3.5やGPT-4が若い学生の質問を誤解することや、過度に複雑なヒントを提供することが問題とされています。これにより、AI研究において人間の要素をより積極的に取り入れることが求められています。

この論文では、数学推論における大規模言語モデルのさまざまな側面、その能力と限界を深掘りし、異なる数学問題やデータセットに対する持続的な課題を議論しています。さらに、大規模言語モデルの進歩と教育設定での応用、数学教育における人間中心のアプローチの必要性を強調しています。この論文が大規模言語モデルのコミュニティにおける将来の研究に対する示唆を提供し、多様な数学的文脈でのさらなる進歩と実用的な応用が促進されることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。