[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试

计算机视觉 28/02/2025

三个要点
✔️ 拟议的 SOK-Bench 是一个由 44,000 多个问题和 10,000 多个视频组成的基准，整合了动态情境和常识。
✔️ 知识图谱（SKG、GKG、SCKG）用于推断视频中的时间和因果过程，并生成问题答案。
✔️ 在实验中评估最先进的大规模语言和多模态模型，以确定推理能力方面的挑战。

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge
written by Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Chuang Gan
(Submitted on 15 May 2024)
Comments: CVPR
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

提高人工智能正确理解真实世界视频和进行常识推理（Commonsense Reasoning） 的能力，是智能发展中一项极其重要的任务。尤其是涉及视频数据的任务，不仅需要简单的物体识别和动作识别，还需要适当解释情况并据此做出合理推断的能力。然而，迄今为止的许多视频推理基准仅限于简单的基于事实的问题解答和特定情境推理，并不支持利用开放世界知识的高级推理 。

本文提出了一种新的视频推理基准 SOK-Bench（Situated Open-world Knowledge Benchmark ）来解决这一问题。该基准的特点如下。

它总共拥有 44,000 多个问题的数据 ，并为 10,000 个动态情境（视频）建立了基准。
利用知识图谱（情景知识图谱（SKG）、常识图谱（GKG）、情景常识图谱（SCKG））将视频中的情景知识和常识整合在一起。
结合 LLM（大规模语言模型）和 MLLM（多模态语言模型）的自动生成方法 可用于大规模生成 QA（问答）数据并进行人工质量检查。
使用最先进的视觉语言模型（VLM）进行的评估 表明，当前的人工智能模型在视频推理方面仍有局限性。

这项研究的特别之处在于，它要求人工智能能够推断视频中存在的知识和因果关系，而不是简单地理解视频。例如，如果视频中有一个人正在烹饪的场景，那么人工智能最好不仅能识别食材和烹饪流程，还能推断出如果缺少某些食材，这道菜会发生怎样的变化。为了实现这种推理，SOK-Bench 采用了将视频数据和知识图谱整合在一起的设计。