赶上最新的AI论文

CogVLA 的下一代 VLA 模型!基于认知科学的指令驱动路由和高效机器人操作

CogVLA 的下一代 VLA 模型!基于认知科学的指令驱动路由和高效机器人操作

三个要点
✔️ CogVLA 将效率和性能结合在受人类认知过程启发的三阶段结构中
✔️ EFA-Routing、LFP-Routing 和 CAtten 保持了视觉、语言和行为的一致性
✔️ LIBERO 和真实世界实验实现了最高的成功率和计算效率的显著提高

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
written by Wei LiRenshan ZhangRui ShaoJie HeLiqiang Nie
(Submitted on 28 Aug 2025)
Comments: 23 pages, 8 figures, Project Page: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

本文探讨了近年来备受关注的视觉-语言-动作(VLA)模型中计算成本高和缺乏跨模态语义一致性的难题。

传统方法主要侧重于提高语言模型的计算效率,而忽视了视觉、语言和动作的综合优化。
因此,这些方法存在着视觉特征被压缩导致重要信息丢失,以及语言模型中的标记跳过导致上下文不连贯等问题。


CogVLA 引入了基于指令的路由和稀疏化技术,以实现从视觉到动作序列的效率和语义一致性。

此外,通过对模拟基准 LIBERO 和真实机器人任务的评估,所提出的方法优于传统方法,并显著提高了效率。

建议的方法

CogVLA 采用了基于人类认知科学的三阶段渐进式架构。

首先,"EFA-路由(基于编码器-FiLM 的聚合路由)"将指令注入视觉编码器,并选择性地聚合和压缩高度相关的视觉标记。
这将输入的视觉信息减少到 25%,并抑制了不相关的特征。

其次,"LFP-Routing(基于 LLM-FiLM 的剪枝路由)"会进一步删除与语言模型内指令不太相关的视觉标记,从而在强调任务相关意义的同时减少计算负荷。

第三,"CAtten(视觉-语言-动作耦合注意力)"用于从压缩表示中生成动作序列,同时保持逻辑一致性和时间完整性。
这种 CAtten 在视觉和语言之间应用了因果注意,同时在行为层实现了双向并行解码,从而实现了效率和准确性。

这些集成设计使 CogVLA 能够在保持跨模态语义一致性的同时实现高效。

实验

CogVLA 在模拟基准 LIBERO 和真实机器人环境中进行了评估。

在 LIBERO 中,对四个不同的任务组进行了 500 次试验:空间推理、物体识别、目标理解和长期任务。
结果表明,CogVLA 的平均成功率达到了 97.4%,超过了现有的最先进模型。

在真实世界条件下,Cobot Agilex ALOHA 平台还被用于执行复杂任务,如物品摆放、抽屉操作和T恤折叠。
成功率达到 70.0%,明显优于其他方法。

此外,在效率方面,与 OpenVLA 相比,推理时间减少了 2.8 倍,FLOPs 减少了 3.1 倍,训练成本减少了 2.5 倍。
消融研究也证实了所提方法的有效性,每个阶段的模块都相辅相成。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们