最新AI論文をキャッチアップ

CompassVerifier:LLM解答検証を革新する新たなベンチマークと堅牢モデル

CompassVerifier:LLM解答検証を革新する新たなベンチマークと堅牢モデル

LLM-Paper

3つの要点
✔️ 従来の検証手法の限界を克服するため、VerifierBenchとCompassVerifierを提案
✔️ CompassVerifierは数式・多段推論・無効回答を含む多様な解答を高精度に判定
✔️ 実験により既存LLMや検証器を上回る性能を示し、報酬モデルとしても有効性を確認

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
written by Shudong LiuHongwei LiuJunnan LiuLinchen XiaoSongyang GaoChengqi LyuYuzhe GuWenwei ZhangDerek F. WongSongyang ZhangKai Chen
(Submitted on 5 Aug 2025)
Comments: Technical Report; 31 Pages

Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

概要

本論文は、LLMの性能評価や強化学習における報酬設計に不可欠な「解答検証」に焦点を当てています。

従来の検証手法は、正規表現による単純な文字列マッチングか、汎用LLMを判定役に用いる方法が主流でした。
しかし、前者はルールのカスタマイズが必要で柔軟性に欠け、後者はタスクごとにプロンプトを調整する必要があり、幻覚や誤判定のリスクが高いという課題がありました。
さらに、複雑な問題や多様な解答形式を、横断的に評価できる包括的なベンチマークが存在しない点も大きな制約でした。

そこで著者らは、こうした課題に対応するため、新たに VerifierBench と呼ばれる評価基盤を構築し、さらに CompassVerifier という軽量かつ高精度な検証モデルを開発。
これにより、数学・知識・推論など多領域にわたる解答検証を可能とし、不正解だけでなく無効回答も的確に識別できる堅牢なフレームワークを提示しています。

提案手法

著者らが提案する手法は二本柱で構成されています。

第一は VerifierBench 。
これは50以上のモデル、15のデータセットから収集した130万件超の応答を、多段階の自動検証と専門家のアノテーションを通じて整備したベンチマークです。正答・誤答に加え、無効回答(不完全、繰り返し、拒否応答など)も明確にラベル付けし、従来より精緻な性能評価を可能にしています。

第二は CompassVerifier 。
このモデルはVerifierBenchを学習基盤とし、3つの拡張技術によって強化されています。
その拡張技術とは、(1) エラーパターン駆動の敵対的拡張 による誤判定への耐性強化、(2) 複雑数式拡張 による多様な記法の同値判定能力向上、(3) 汎化能力拡張 による異なるタスクやプロンプト形式への適応力の向上です。

これらの工夫により、CompassVerifierは従来の正規表現ベースやLLMベースの検証器を凌駕する精度と堅牢性を実現しました。

実験

実験では、CompassVerifierを3Bから32Bのパラメータ規模で訓練し、VerifierBenchを用いて評価しました。
比較対象はGPT-4oやDeepSeek-V3などの汎用LLM、さらに既存の専用検証器xVerifyやTencent-RLVRです。
その結果、CompassVerifierは全ての領域で新たなSOTAを達成。特に32Bモデルは90%超の精度と87%以上のF1スコアを記録し、同規模のLLMや既存検証器を大きく上回りました。

また、回答形式別の評価では、多肢選択問題では高得点が得られる一方、逐次的回答や複数小問を含む回答では難易度が高く、従来モデルはF1スコア40以下にとどまりましたが、CompassVerifierは一貫して高精度を維持。
さらに、強化学習における報酬モデルとしての有効性も検証され、CompassVerifierを用いた訓練は、ルールベース検証器を用いた場合より高い収束効率と性能向上を示しました。

これにより、本モデルは評価基盤としてだけでなく、学習を導く報酬信号としても有望であることが確認されました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする