
CompassVerifier:LLM解答検証を革新する新たなベンチマークと堅牢モデル
3つの要点
✔️ 従来の検証手法の限界を克服するため、VerifierBenchとCompassVerifierを提案
✔️ CompassVerifierは数式・多段推論・無効回答を含む多様な解答を高精度に判定
✔️ 実験により既存LLMや検証器を上回る性能を示し、報酬モデルとしても有効性を確認
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
written by Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
(Submitted on 5 Aug 2025)
Comments: Technical Report; 31 Pages
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
概要
本論文は、LLMの性能評価や強化学習における報酬設計に不可欠な「解答検証」に焦点を当てています。
従来の検証手法は、正規表現による単純な文字列マッチングか、汎用LLMを判定役に用いる方法が主流でした。
しかし、前者はルールのカスタマイズが必要で柔軟性に欠け、後者はタスクごとにプロンプトを調整する必要があり、幻覚や誤判定のリスクが高いという課題がありました。
さらに、複雑な問題や多様な解答形式を、横断的に評価できる包括的なベンチマークが存在しない点も大きな制約でした。
そこで著者らは、こうした課題に対応するため、新たに VerifierBench と呼ばれる評価基盤を構築し、さらに CompassVerifier という軽量かつ高精度な検証モデルを開発。
これにより、数学・知識・推論など多領域にわたる解答検証を可能とし、不正解だけでなく無効回答も的確に識別できる堅牢なフレームワークを提示しています。
提案手法
著者らが提案する手法は二本柱で構成されています。
第一は VerifierBench 。
これは50以上のモデル、15のデータセットから収集した130万件超の応答を、多段階の自動検証と専門家のアノテーションを通じて整備したベンチマークです。正答・誤答に加え、無効回答(不完全、繰り返し、拒否応答など)も明確にラベル付けし、従来より精緻な性能評価を可能にしています。
第二は CompassVerifier 。
このモデルはVerifierBenchを学習基盤とし、3つの拡張技術によって強化されています。
その拡張技術とは、(1) エラーパターン駆動の敵対的拡張 による誤判定への耐性強化、(2) 複雑数式拡張 による多様な記法の同値判定能力向上、(3) 汎化能力拡張 による異なるタスクやプロンプト形式への適応力の向上です。
これらの工夫により、CompassVerifierは従来の正規表現ベースやLLMベースの検証器を凌駕する精度と堅牢性を実現しました。
実験
実験では、CompassVerifierを3Bから32Bのパラメータ規模で訓練し、VerifierBenchを用いて評価しました。
比較対象はGPT-4oやDeepSeek-V3などの汎用LLM、さらに既存の専用検証器xVerifyやTencent-RLVRです。
その結果、CompassVerifierは全ての領域で新たなSOTAを達成。特に32Bモデルは90%超の精度と87%以上のF1スコアを記録し、同規模のLLMや既存検証器を大きく上回りました。
また、回答形式別の評価では、多肢選択問題では高得点が得られる一方、逐次的回答や複数小問を含む回答では難易度が高く、従来モデルはF1スコア40以下にとどまりましたが、CompassVerifierは一貫して高精度を維持。
さらに、強化学習における報酬モデルとしての有効性も検証され、CompassVerifierを用いた訓練は、ルールベース検証器を用いた場合より高い収束効率と性能向上を示しました。
これにより、本モデルは評価基盤としてだけでなく、学習を導く報酬信号としても有望であることが確認されました。
この記事に関するカテゴリー