![[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2025/sok-bench.png)
[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试
三个要点
✔️ 拟议的 SOK-Bench 是一个由 44,000 多个问题和 10,000 多个视频组成的基准,整合了动态情境和常识。
✔️ 知识图谱(SKG、GKG、SCKG)用于推断视频中的时间和因果过程,并生成问题答案。
✔️ 在实验中评估最先进的大规模语言和多模态模型,以确定推理能力方面的挑战。
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
提高人工智能正确理解真实世界视频和进行常识推理(Commonsense Reasoning) 的能力,是智能发展中一项极其重要的任务。尤其是涉及视频数据的任务,不仅需要简单的物体识别和动作识别,还需要适当解释情况并据此做出合理推断的能力。然而,迄今为止的许多视频推理基准仅限于简单的基于事实的问题解答和特定情境推理,并不支持利用开放世界知识的高级推理 。
本文提出了一种新的视频推理基准 SOK-Bench(Situated Open-world Knowledge Benchmark )来解决这一问题。该基准的特点如下。
- 它总共拥有 44,000 多个问题的数据 ,并为 10,000 个动态情境(视频)建立了基准。
- 利用知识图谱(情景知识图谱(SKG)、常识图谱(GKG)、情景常识图谱(SCKG))将视频中的情景知识和常识整合在一起。
- 结合 LLM(大规模语言模型)和 MLLM(多模态语言模型)的自动生成方法 可用于大规模生成 QA(问答)数据并进行人工质量检查。
- 使用最先进的视觉语言模型(VLM)进行的评估 表明,当前的人工智能模型在视频推理方面仍有局限性。
这项研究的特别之处在于,它要求人工智能能够推断视频中存在的知识和因果关系,而不是简单地理解视频。例如,如果视频中有一个人正在烹饪的场景,那么人工智能最好不仅能识别食材和烹饪流程,还能推断出如果缺少某些食材,这道菜会发生怎样的变化。为了实现这种推理,SOK-Bench 采用了将视频数据和知识图谱整合在一起的设计。
相关研究
视频问题解答 (VQA)
视频问题解答是人工智能观察视频并生成适当回复的一项任务,一直是许多研究的主题。典型的数据集包括
- CLEVR(2017):基于规则的视觉推理数据集。
- VCR(2019):用于理解人类行为和意图的问答数据集。
- AGQA(2021 年):视频问答数据集,要求进行时间和因果推理。
这些数据集主要 侧重于视觉特征提取和静态视频理解,很难考虑视频中的时间变化和因果关系 。而 SOK-Bench 数据集则能清晰地捕捉视频中的情况及其因果关系,并整合开放世界的知识以实现更高级的推理。
建议方法
SOK-Bench 数据集由根据视频片段自动生成的问答数据 组成,创建步骤如下。
-
从视频图像中提取情景知识(情景知识提取)。
- 分析视频场景,提取对象、人物、动作和时间关系。
- 例如,在 "烹饪场景 "中,会记录食材和烹饪步骤。
-
常识整合
- 根据提取的情景知识,利用常识图谱(GKG)提供附加信息。
- 补充知识,如 "玉米淀粉用于增稠"。
-
生成问答数据
- 利用知识图谱自动生成问答数据。
- 例如:"不使用玉米淀粉会对您的烹饪产生什么影响?
-
通过人工审核进行质量检查
- 对自动生成的数据进行人工检查,以确保质量。
因此,SOK-Bench数据集 不仅可用于评估 视频理解能力,还可用于评估利用知识进行高级推理的技能 。
实验结果
为了验证 SOK-Bench 的有效性,我们使用典型的 LLM 和 MLLM 进行了评估 。主要评估模型如下。
- GPT-4V (OpenAI)。
- 视频-LaMA(基于 LLaMA 的视频理解模型)
- PandaGPT (视频、音频和文本集成模型)
- AskAnything (多模态问题解答模式)。
- 谷(最先进的视频理解模型)。
结果分析
SOK-Bench 评估表明,当前的模型在因果推理和利用开放世界知识方面仍面临挑战 。
- 虽然GPT-4V 的得分最高 ,但正确答案的百分比仍低于 60%。
- 现有的视频理解模型(如 Video-LaMA)准确率 只有40% 或更低 ,在很多情况下无法正确推断视频中的情况。
- 所有模型都有困难,尤其是在 "反事实推理 "中 ,他们在正确理解视频中的前后事件方面存在问题。
结果表明,SOK-Bench 是一个有用的数据集,它清楚地展示了当前 LLMs/MLLMs 需要克服的挑战。
结论
SOK-Bench 为视频推理领域提供了一个重要的新基准。当前的模型在理解因果关系和利用开放世界知识方面仍然存在困难,因此需要在未来的模型开发中进一步改进。特别是,我们认为必须进一步开发视频数据与知识图谱的整合,以便多模态人工智能能够进行类似人类的灵活推理。
与本文相关的类别