失敗から学ぶLLM、新しいベンチマーク「COTERRORSET」の提案

Large language models 2024年09月05日

3つの要点
✔️ 新しいベンチマーク「COTERRORSET」の導入
✔️ 大規模言語モデルが自身の間違いから学ぶ新しい学習手法の導入
✔️ エラーの詳細な分析とカテゴリー化によって、モデル学習と推論精度の向上に対する寄与度を分析

Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning
written by Yongqi Tong, Dawei Li, Sizhe Wang, Yujia Wang, Fei Teng, Jingbo Shang
(Submitted on 29 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年の研究で、大規模言語モデルは、その推論能力が注目されています。これらのモデルは、多様なタスクやアプリケーションで顕著な成果を上げており、特にChain-of-Thought（CoT）プロンプト方式を用いたアプローチの有効性が確認されています。この方法は、問題解決を人間の論理的な思考に倣って、段階的に進めるものです。

人間が過去の間違いから学ぶように、大規模言語モデルもその間違いを振り返り、それから学び取ることが重要です。しかし、これまでのところ、大規模言語モデルが間違いからどのように学ぶかについての研究は少ないのが現状です。そこで、この論文では、この点に焦点を当て、新しい学習方法を研究しています。

この研究では、1,060個の異なるタスクから609,432の問題を含む大規模データセット「COTERRORSET」を構築しています。各問題は、手動でキュレートされた正しいリファレンスとPaLM2の回答から収集された誤った根拠もとに構築されています。さらに、正しいリファレンスと誤った回答で大規模言語モデルにプロンプトすることにより、そのような間違いを犯す理由を反映させています。これをもとに大規模言語モデルがどのように間違いを犯すかを解析しています。さらに、これらの間違いを活かして大規模言語モデルの能力を向上させるための2つの新しいアプローチ「mistake tuning」と「self-rethinking」を導入しており、大規模言語モデルの学習プロセスを促進するために、対応する根拠の前に[CORRECT RATIONALE]および[INCORRECT RATIONALE]というプレフィックスを導入します。これにより、従来の教師あり学習の枠を超え、間違いを有効活用する方法を提案しています。

この論文が提案する手法は、大規模言語モデルが正しい根拠と誤った根拠を区別することを助け、さらにその学習プロセスを深めるために、対照的なサンプルを用いた実験を行っています。これにより、モデルは初期の回答後に自身の回答を再考し、修正することができます。また、このアプローチは、計算リソースを管理し、潜在的なループを防ぐために、モデルが「self-rethinking」と「mistake tuning」ができる回数に閾値を設定しています。

下図はパイプラインの概要です。

さらに、これらのモデルがどのように間違いから学び取るか、その能力を深く理解するために、多様な推論タスクとさまざまなサイズの大規模言語モデルを用いた実験を行っており、その結果、一貫してパフォーマンスを向上させることが確認されています。この方法は、大規模言語モデルのチューニングと推論の両段階での間違いを有効に活用することを可能にし、その広範な適用性と効果を示唆しています。これは、大規模言語モデルの利用可能性と効果をさらに広げるものであり、今後の研究が期待されます。

COTERRORSETの概要

この論文では、大規模言語モデルの推論性能への誤った根拠の影響を調査するために、「COTERRORSET」という新しいベンチマークを構築しています。このデータセットは、多岐にわたる問題領域（複数選択肢型QA、抽出型QA、クローズドブック型QA、形式論理、自然言語推論、算数推論）をカバーしており、「COTCOLLECTION（Kim et al., 2023）」をもとに構築されています。

このデータセットに含まれる質問とリファレンスは、次のような複数の既存データセットから抽出されています。

QASC（Khot et al., 2020）
AQuA（Ling et al., 2017）
GSM8K（Cobbe et al., 2021）
QED（Lamm et al., 2021）
StrategyQA（Geva et al., 2021）
SenseMaking（Wang et al., 2019）
CREAK（Onoe et al., 2021）
eSNLI（Camburu et al., 2018）
ECQA（Aggarwal et al., 2021）

これらのデータは体系的に整理され、各タスクは正しい回答と誤った回答、そしてその誤りがなぜ生じたのかを示すデモンストレーションが組み込まれています。これらのエラーとデモンストレーションは、PaLM2を用いて生成されています。

COTERRORSETは従来のCoTデータセットとは異なり、PaLM2による間違いとその背後にある理由を活用しています。データセット内の各質問に対し、PaLM2を用いて特に誤った根拠を集め、正しい回答と併せて提供することで、モデルがどのような間違いを犯すのかを詳しく反映させています。下図はこのプロセスの概要です。

誤った根拠の体系的な収集が、新しい視点からの将来的な改善への道を切り開く可能性を秘めています。具体的な例は、下表のようになっています。

また、COTERRORSETデータセットを詳細に分析した結果、含まれるエラータイプが非常に複雑で多様であることを示しています。この複雑性は、モデルの改善に課題をもたらしています。これに対処するため、下図に示されるような大規模言語モデルを活用した教師なしクラスタリング手法を導入しています。

この手法により、さまざまなエラータイプをより一般的なカテゴリに分類することが可能となります。まずエラーの原因となるキーワードを特定し抽出します。次に、これらのキーワードを大規模言語モデルに入力し、エラー全体を包括する一般的なカテゴリを形成するよう促します。この自動化されたクラスタリングプロセスの後、手動で各クラスタを精査し、必要に応じて調整を加え、マッチング結果を精緻化します。最終的には、算数推理における「計算エラー」、「数値エラー」、「論理エラー」や、常識推理における「論理エラー」、「常識エラー」、「言語エラー」、「文脈エラー」といった、いくつかの抽象的なカテゴリにエラータイプを統合しています。概要は下表のとおりです。

実験結果

「self-rethinking」は、標準的なChain of Thought（CoT）手法と比較して、GPT-4およびPaLM2モデルのパフォーマンス向上に顕著な効果があることがわかりした。結果は下表のようになっており、この手法を用いた際のPaLM2の成績が示されています。

また、下表ではそれをGPT4の成績と比較しています。特に、「self-rethinking」を使用した場合の改善が際立っており、これがGPT-4の性能向上に効果的なアプローチであることを示しています。

このアプローチでは、「self-consistency」とは異なり、推論回数を最小限に抑えつつ高精度を達成しています。具体的には、質問に対して2回から3回の推論を行うことで、誤りが見つかった場合にはその間違いを利用して最終回答を導き出します。これにより、自己整合性よりも少ない計算リソースで、より効率的に問題解決が可能です。

特に、GSM8K、AQuA、MathQA、LogiQAといった複数のデータセットで、同じ計算コストをかけた「self-consistency」と比べて優れた結果を示しています。しかし、MathQAデータセットでは、操作ベースの算数問題に特化しており、自己洗練の結果を超えることはできませんでしたが、CoTのパフォーマンスは上回りました。これは、「self-rethinking」が特定の問題タイプ、特に複雑な数学的問題において有効であることを示唆しています。

「self-rethinking」の効果を示す実証例として、PaLM2モデルを用いたGSM8K、AQuA、MathQA、LogiQAの4つのタスクでの8ショットの実験結果が下表に示されています。

このプロセスでは、PaLM2の生成した誤った根拠を収集し、それらを学習と再考のデモンストレーションとして活用しています。その結果、標準的な8-shot CoTに比べて、「self-rethinking」が明確な利点を持つことが確認されました。この手法は特に、複雑な問題解決を要求する少数ショット学習シナリオでの精度向上に効果的です。

この研究では、「self-refine」も利用されていますが、以前のミスのサンプルを活用しない点で「self-rethinking」とは異なります。それにも関わらず、「self-rethinking」は、ほとんどのデータセットで「self-refine」を大幅に上回る結果を示しました。特に算数推理（MathQA）データセットでは改善が見られたものの、常識推理（LogiQA）データセットではパフォーマンスが低下していることが確認されています。対照的に、「self-rethinking」はさまざまな領域において、8-shot CoTを一貫して上回り、以前のミスを取り入れることが再考と精緻化のプロセスを安定化させる効果を持つことが示唆されています。

総じて、「self-rethinking」は、特に論理的な厳密性が求められる状況において、モデルが固定された論理パターンを識別し、エラーから学ぶことを可能にします。これは、強い論理を必要とし細かいエラーが発生しやすいタスクにおいて特に有効です。さらに、この手法は、モデルの潜在能力内であるが見過ごされがちな低レベルのミスや誤解を特定し、修正するのに役立ちます。この能力は、特に複雑な問題解決の文脈で大規模言語モデルの回答の精度と信頼性を高めるための貴重なツールとして機能することを示しています。

さらに、「mistake tuning」に関する結果は下表で示されています。この表では、Flan-T5モデルが誤った根拠と正しい根拠を組み合わせることによる影響を強調し、異なるモデルスケールでのパフォーマンスを示しています。

特に、MathQAドメインでのFlan-T5-large（780M）は、48.95％という精度でPaLM2の41.37％を上回り、この手法の有効性を示しています。この結果は、大規模言語モデルが誤った推論を活用することで、問題解決と推論能力を向上させることができるという重要な示唆を提供しています。さらに、このアプローチは正しいCoTの理解を強化するだけでなく、誤った根拠を特定し学ぶ能力も拡張しています。

この成果は、正しいCoTの理解と学習の強化だけでなく、誤った根拠を特定し学ぶ能力をも促進することにより、推論プロセスのさらなる発展を図る新たな方向を示唆しています。このようなアプローチは、特に複雑な問題を解決する際に、大規模言語モデルの精度と信頼性を向上させるための重要なツールとなると考えられます。

まとめ

この論文では、大規模言語モデルが自身の過ちから学習できるかどうかを検証しています。大規模言語モデルが過ちをどのように識別し、それから学ぶかを理解するために、正しい根拠と誤った根拠を含む新しいベンチマーク「COTERRORSET」を開発しています。このベンチマークは、エラー作成のプロセスを示すデモンストレーションを通じて設計され、異なる領域でのデータを収集しています。

また、エラーの影響を異なる観点で評価するために、「self-rethinking」と「mistake tuning」という2つのアプローチを提案しています。これらのアプローチは、一貫して顕著な改善を示し、推論エラーからの学習が持つ潜在的な利点を明らかにしています。特に、算数推理と常識推理の領域で大規模言語モデルが行う一般的な間違いについて、詳細な分析を行い、今後の研究の方向性に関して明確な指針を提供しています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。