CogVLAによる次世代VLAモデル！認知科学に基づく指示駆動型ルーティングと効率的ロボット操作

LLM-Paper 2025年09月22日

3つの要点
✔️ CogVLAは、人間の認知過程に着想を得た三段階構造で効率と性能を両立
✔️ EFA-Routing・LFP-Routing・CAttenにより視覚と言語と行動の一貫性を維持
✔️ LIBEROと実環境実験で最高水準の成功率と大幅な計算効率改善を達成

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
written by Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
(Submitted on 28 Aug 2025)
Comments: 23 pages, 8 figures, Project Page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)

概要

本論文は、近年注目されるVision-Language-Action（VLA）モデルにおける計算コストの高さと、モダリティ間での意味的一貫性の欠如という課題に取り組んでいます。

従来の手法は主に言語モデル内部の計算効率化に焦点を当て、視覚・言語・行動の統合的最適化を軽視してきました。
その結果、視覚特徴の圧縮で重要な情報が失われたり、言語モデル内でのトークンスキップにより文脈的一貫性が損なわれたりする問題が生じていたとのこと。

著者らはこれを解決するため、人間の認知過程から着想を得た「CogVLA」を提案。
CogVLAは、指示に基づくルーティングとスパース化を導入し、視覚から行動までの一連の処理において効率性と意味的整合性を両立させます。

さらに、シミュレーションベンチマークLIBEROおよび実ロボットタスクにおける評価を通じ、従来手法を凌駕する性能と大幅な効率改善を実証しました。

提案手法

CogVLAは、人間の認知科学に基づき、三段階の進行型アーキテクチャを採用しています。

第一に「EFA-Routing（Encoder-FiLM based Aggregation Routing）」により、指示文を視覚エンコーダに注入し、関連性の高い視覚トークンを選択的に集約・圧縮。
これにより入力視覚情報は25％に削減され、無関係な特徴は抑制されます。

第二に「LFP-Routing（LLM-FiLM based Pruning Routing）」により、言語モデル内部で指示に関係の薄い視覚トークンをさらに除去し、計算負荷を低減しつつ、タスクに関連する意味を強調。

第三に「CAtten（Vision-Language-Action Coupled Attention）」を導入し、圧縮後の表現から論理的一貫性と時間的整合性を保ちながら行動系列を生成。
このCAttenは視覚・言語間に因果的アテンションを適用しつつ、行動層では双方向の並列デコーディングを可能にすることで、効率と精度を両立しています。

これらの統合設計により、CogVLAはクロスモーダルの意味的一貫性を維持しつつ効率化を実現しました。