赶上最新的AI论文

SCIVER 的未来:多模式科学索赔验证的前沿

SCIVER 的未来:多模式科学索赔验证的前沿

三个要点
✔️ SCIVER 为整合文本、表格和数字的科学主张验证提出了一个新基准
✔️ 人类专家与先进模型的比较显示,模型的
推理准确性显著
✔️ 多阶段推理和对视觉信息的误读被认为是模型面临的主要挑战。

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
written by Chengye WangYifei ShenZexi KuangArman CohanYilun Zhao
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

本文提出了一种新的基准--SCIVER,用于验证科学论文中包含的各种信息的正确性。

该基准使用结合了文本、表格和数字等多种模式的上下文来评估模型验证声明的准确性。

SCIVER 包括从总共 1,113 篇计算机科学文章中提取的 3,000 个示例,每个示例都附有专家注释的理由信息。经过验证的模型包括 21 个先进的基础模型,如 GPT-4.1 和 Gemini。

结果,人类专家的平均准确率达到了 93.8%,而最先进模型的准确率只有 70% 左右。这一差异表明,目前的模型很难在多模态背景下进行高级推理。

建议的方法

SCIVER 的设计基于一个任务结构,其中包括四种不同类型的推理,以评估模型的多模态推理能力。

首先,"直接推理 "衡量的是提取单一信息以验证主张的能力。平行推理 "考察的是整合多种信息来源的能力,而"顺序推理 "则要求通过一步一步地将证据联系起来进行推理。此外,"分析推理 "测试的是结合专业知识和复杂逻辑做出决策的能力。

注释工作由 18 名专题专家负责,他们会严格核实主张和证据的一致性。该设计的一个特点是,它不仅仅是一个文本处理过程,还能识别表格中的图片和数字内容。此外,通过误差分析,我们发现该模型主要在寻找证据和多阶段推理方面存在缺陷。

实验

在评估实验中,SCIVER 验证任务在 GPT-4.1、Gemini-2.5-Flash 和 o4-mini 等高级模型以及 Qwen2.5-VL 和 Mistral 等开源模型上进行。

在实验环境中,每个模型都被赋予一个包含文本、表格和数字以及主张的多模态上下文,并被要求推断主张的正确性或错误性。模型根据 "思维链提示 "依次输出推理过程,然后自动做出最终的正确或错误判断。

结果,最佳模型的准确率仅为 77%,而人类专家的准确率为 93.8%。此外,随着证据的增加,模型的准确率也呈下降趋势。额外的检索-增强生成设置显示了一些性能改进,但多阶段推理和对视觉元素的误读仍然是主要挑战。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们