最新AI論文をキャッチアップ

SCIVERが拓く未来:マルチモーダル科学的主張検証の最前線

SCIVERが拓く未来:マルチモーダル科学的主張検証の最前線

LLM-Paper

3つの要点
✔️ SCIVERはテキスト・表・図を統合した科学的主張検証の新しいベンチマークを提案
✔️ 人間専門家と先端モデルを比較し、モデルの推論精度が大きく劣ることを示した
✔️ 多段階推論や視覚情報の誤解釈がモデルの主な課題として明らかに

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
written by Chengye WangYifei ShenZexi KuangArman CohanYilun Zhao
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code:  

概要

本論文では、科学論文に含まれる主張の正しさを多様な情報から検証するための新しいベンチマーク「SCIVER」が提案されています。

このベンチマークは、テキスト、表、図といった複数のモダリティを組み合わせたコンテキストを利用し、モデルがどの程度正確に主張を検証できるかを評価。

SCIVERは、計1,113本のコンピュータサイエンス分野の論文から抽出された3,000件の例を含んでおり、各例には専門家が注釈を付けた根拠情報が添えられています。検証対象となるモデルは、GPT-4.1やGeminiなどの先進的な基盤モデル21種です。

結果として、人間の専門家は平均93.8%の精度を達成しましたが、最先端モデルの精度は70%程度にとどまりました。この差異は、現行モデルがマルチモーダルな文脈で高度な推論を行うことがいかに難しいかを示しています。

提案手法

SCIVERの設計は、モデルの多面的な推論能力を評価するために、四つの異なる推論タイプを含むタスク構造に基づいています。

まず「直接推論」は、単一の情報を抽出して主張を検証する能力を測ります。「並列推論」は複数の情報源を統合する力を問い、「逐次推論」では、段階的に根拠を結びつけながら推論する必要があります。また、「分析推論」は、専門的な知識と複雑な論理を組み合わせて判断する能力が試されます。

注釈作業は、18名の分野専門家により行われ、主張と根拠の整合性を厳密に検証。特に、単なるテキスト処理ではなく、表の画像や図の内容も認識させる設計が特徴です。さらに、誤り解析を通じて、モデルが主に根拠の探索や多段階推論でつまずいていることが明らかになりました。

実験

評価実験では、GPT-4.1、Gemini-2.5-Flash、o4-miniなどの先進的モデルと、Qwen2.5-VLやMistralなどのオープンソースモデルを対象に、SCIVERの検証タスクを実行。

実験設定では、各モデルにテキスト、表、図を含むマルチモーダル文脈と主張を与え、主張の正誤を推論させました。モデルは「Chain-of-Thoughtプロンプト」に基づいて推論過程を逐次出力し、その後自動で最終的な正誤判定を行いました。

結果として、人間専門家は93.8%の精度を示した一方で、最良のモデルでも約77%の精度にとどまることに。また、根拠が増えるほどモデルの精度は低下する傾向が見られました。追加のRetrieval-Augmented Generation設定により一部性能向上が確認されましたが、それでもなお多段階推論や視覚要素の誤解釈が主要な課題として残っています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする