【SOK-Bench】動画における実世界の知識を活用した状況的ビデオ推論ベンチマーク

Computer Vision 2025年02月28日

3つの要点
✔️ SOK-Benchを提案し、動的な状況と一般常識を統合した44,000以上の質問と10,000の動画からなるベンチマークを構築。
✔️ 知識グラフ（SKG, GKG, SCKG）を用いて動画の時間的・因果的プロセスを推論可能にし、質問応答を生成。
✔️ 実験で最新の大規模言語モデルやマルチモーダルモデルを評価し、推論能力における課題を明らかに。

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge
written by Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Chuang Gan
(Submitted on 15 May 2024)
Comments: CVPR
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

人工知能が実世界の映像を適切に理解し、常識的な推論（Commonsense Reasoning） を行う能力を向上させることは、知能の発展において極めて重要な課題です。特に、映像データを扱うタスクにおいては、単なる物体認識や動作認識だけでなく、その場の状況を適切に解釈し、さらにそれに基づいて合理的な推論を行う能力が求められます。しかし、これまでの映像推論ベンチマークの多くは、事実に基づく単純な質問応答や特定の状況推論に限定されており、オープンワールドの知識を活用した高度な推論には対応していない という課題があります。

本論文では、この問題を解決するために SOK-Bench（Situated Open-world Knowledge Benchmark） という新しい映像推論ベンチマークを提案しました。このベンチマークの特徴は以下の通りです。

合計44,000以上の質問データ を持ち、10,000の動的な状況（映像）を対象としたベンチマークを構築。
知識グラフ（Situated Knowledge Graph (SKG), General Knowledge Graph (GKG), Situated Commonsense Knowledge Graph (SCKG)）を活用し、映像内の状況的な知識と一般知識を統合。
LLM（大規模言語モデル）とMLLM（マルチモーダル言語モデル）を組み合わせた自動生成手法 により、QA（質問応答）データを大規模に生成し、手動で品質チェックを実施。
最新の視覚言語モデル（Visual Language Models, VLMs）を用いた評価を実施 し、現在のAIモデルが映像推論において依然として限界を抱えていることを示した。

この研究が特に優れている点は、単なる映像の理解ではなく、映像の中に存在する知識や因果関係を推論する能力をAIに求めていることです。例えば、映像の中で人が料理をしているシーンがあった場合、AIは「食材が何か」や「調理の流れ」を認識するだけでなく、「ある材料が不足していた場合、料理がどのように変化するか」までを推論できることが理想とされています。このような推論を可能にするために、SOK-Benchは映像データと知識グラフを統合した設計を採用しています。

提案手法

SOK-Benchのデータセットは、映像をもとに自動生成される質問応答データ で構成されており、以下の手順で作成されています。

映像から状況的知識を抽出（Situated Knowledge Extraction）
- 映像のシーンを解析し、物体、人物、行動、時間的関係を抽出。
- 例えば、「調理中のシーン」では、食材や調理手順が記録される。
一般知識の追加（General Knowledge Integration）
- 抽出された状況的知識に基づき、一般知識グラフ（GKG）を活用して追加情報を付与。
- 例：「コーンスターチはとろみをつけるために使用される」といった知識を追加。
質問応答データの生成
- 知識グラフを活用し、質問応答データを自動生成。
- 例：「コーンスターチを使わなかった場合、料理にどのような影響があるか？」
手動レビューによる品質チェック
- 自動生成されたデータは、手動でチェックされ、品質が確保される。

このように、SOK-Benchは単なる映像理解だけでなく、知識を活用した高度な推論能力を評価できるデータセット となっています。

実験結果

SOK-Benchの有効性を検証するために、代表的なLLMとMLLMを用いた評価 を実施しました。主な評価モデルは以下の通りです。

GPT-4V（OpenAI）
Video-LLaMA（LLaMAベースの映像理解モデル）
PandaGPT（映像・音声・テキスト統合モデル）
AskAnything（マルチモーダル質問応答モデル）
Valley（最新の映像理解モデル）

結果の分析

SOK-Benchにおける評価では、現在のモデルが因果推論やオープンワールド知識の活用において依然として課題を抱えている ことが示されました。

GPT-4Vが最高スコアを記録 したものの、正答率は依然として60%未満。
既存の映像理解モデル（Video-LLaMAなど）は40%以下の精度 に留まり、映像内の状況を正しく推論できないケースが多い。
特に因果推論（Counterfactual Reasoning）では、どのモデルも苦戦 しており、映像内の出来事の前後関係を正しく理解する能力に課題がある。

この結果から、SOK-Benchは現在のLLM/MLLMが克服すべき課題を明確に示すデータセットとして有効であることが示されました。

結論

SOK-Benchは、映像推論の分野において重要な新たなベンチマークを提供しました。現在のモデルでは、因果関係の理解やオープンワールドの知識活用が依然として難しく、今後のモデル開発においてさらなる改良が求められます。特に、マルチモーダルAIが人間のように柔軟な推論を行うためには、映像データと知識グラフの統合をさらに進化させることが不可欠だと感じました。