赶上最新的AI论文

专家们一起工作:全球共享工作区

Transformer

三个要点
✔️ 从认知科学中的全球工作区到变形金刚和RIM的引入理念
✔️ 提出一个具有竞争机制和广播机制的共享工作区
✔️ 在一个具有挑战性的实验中,展示共享工作区在所有专家之间共享信息的有效性。

Coordination Among Neural Modules Through a Shared Global Workspace
written by Chengyue GongDilin WangMeng LiVikas ChandraQiang Liu
(Submitted on 1 Mar 2021)
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)

code: 

本文所使用的图片要么来自该文件,要么是参照该文件制作的。

简介

明确区分不同类型信息的结构化模型是深度学习的一个趋势。事实上,1980年代的人工智能研究集中在如何设计能够产生智慧的架构。其中一个最有力的想法是,具有不同作用的模块可以连接在一起,以创建高度复杂的系统。

各个模块之间的同步仍然是一个问题,因为在模块之间的因果关系及其相互影响很重要的情况下,需要进行同步。在认知科学的全局工作空间理论的启发下,作者提出在模块结构中加入一个可被所有模块同时访问的共享表示。这个共享表征可以受到任何专业模块的影响,并有能力向所有模块广播信息。这种协调模块间信息的共享表征的结构与变形金刚和RIM相似,我们将在这些架构的基础上进行扩展。

变形金刚和RIM中使用的注意机制是与位置成对互动的。这意味着,对于每一个位置,都要通过Attention计算出两个位置。论文指出,这种成对的互动并不能在所有位置之间很好地分享信息,并主张建立一种机制,使模型的所有部分(模块)都能相互分享信息。

简而言之,拟议的共享工作区方法是,每个专业模块只在与输入最相关的时候向共享工作区写入,并自动将共享工作区的信息广播给所有专业模块。为简单起见,我们将使用下面的例子。为清楚起见,在以下描述中,专家模块将被简单地称为专家。为清楚起见,在以下描述中,专家模块将被简单地称为专家,为避免误解,与提案方法相关的技术术语(如共享工作区)将不经翻译而使用。

通过共享工作区实现模块结构之间的同步化

复制认知科学的全球工作空间架构,作者设计了一个架构,其中专家通过共享工作记忆进行稀疏的交流。具体来说,他们对Transformer和RIM(基于Attention和Slot的模块架构)进行了扩展,增加了共享工作空间和竞争权限的机制,以便向模块写入。我们希望这种共享工作区的结构能使专家之间更好地同步和协调。

虽然变形金刚和RIM都使用成对的自我关注机制在专家之间共享信息,但所提出的方法通过有限容量的共享工作区促进了专家之间的信息共享。每个计算阶段包括步骤1和步骤2,前者是不同的专家争夺对共享工作区的写入权,后者是将共享工作区的内容同时广播给所有专家。

一个具体的例子显示在图2中,共享工作区层被添加到变压器(b)和通用变压器(d)中,在模块结构的RIM(a)和TIM(c)中,模块通信层被共享工作区层取代。通过用共享工作区层取代RIM(a)和TIM(c)中模块间的通信层,进行了简单的扩展。此外,写到共享工作区和广播共享工作区信息的操作是由Attention机制实现的。* 关于RIMTIM的更多信息请参考这篇文章。现在我们将分三步解释共享工作区的细节。

从输入信息中获得专家代表

第一步,从输入信息中获得每个专家的代表。这一步为RIM和Transformers中专家的不同输入准备了表示。

这是专家们为每个计算阶段的下两个步骤做准备:1.每个专家竞相向共享工作区写信;2.每个专家接收来自共享工作区的信息广播;3.每个专家都有自己的想法。

将信息写入共享工作区

在第二步中,专家们争夺向共享工作区写信的权利,这时他们应该用收到的新信息更新自己。换句话说,与输入信息相关的专家学会了拥有更高的相关性分数,这是由关键值注意力计算的。一个专家如果以某种方式对输入的信息作出反应,并经常更新,那么当收到真正重要的输入时,就有可能输给其他专家。这样的竞争体系将有望导致劳动分工,不同的专家对不同的投入作出反应。

具体来说,Key-Value Attention中的Key和Value是步骤1中得到的专家表示的线性变换,Query是共享工作区的变换表示。换句话说,共享工作区是访问相关专家的机制。然后,k个最相关的专家被写入共享工作区,按照注意力的Softmax计算得到的分数排序(公式1)。这种top-k操作可以被认为是在坚守的软注意力(所有专家)和硬注意力(top-1专家)之间取得平衡。

(1)

从共享工作区广播信息

第三步是向所有专家广播共享工作区的信息。同样,由关注机制计算的相关性分数被用来确定专家被更新的程度。然而,与第2步不同的是,我们从专家那里生成一个查询,从共享工作区生成一个键和值来计算软注意力。所有专家用共享工作区的信息更新他们的潜在表征(等式2)。在这里,更新是在RIM的LSTM或GRU中完成的,在变形器的FFN前向传播层中完成。

 (2)

然而,h是LSTM和GRU的潜在表示,S是相关性分数,v是共享工作区表示的线性变换。

共享工作区的一致性和计算的复杂性

至于一致性,共享工作区在每一步都会更新,但在剧情结束后会重置。这意味着,在输入序列结束(游戏结束)时,RIM将共享相同的共享工作区表示,而在传播到最终层结束时,Transformer将共享相同的共享工作区表示。

建议的共享工作区结构对于n个专家来说是O(n),而Transformer和RIMs是O(n^2),因为它们使用注意力机制计算两个专家之间的相关性。在实践中,精子的数量是固定的,所以所提出的带有共享工作空间的结构在计算复杂性方面非常好,适合大规模的实验。(作为参考,根据相关文献,人类的工作记忆不到10,被认为是非常小的。

实验

我们的实验显示了两件事。(a) 我们确认共享工作区使用广泛的基准提高了准确性,证明了所提方法的实用性和通用性。(b) 我们通过证实不使用成对互动也能实现准确率的提高,表明共享工作区可以保持不同专家之间的一致性。详细的实验设置在本文的附录中作了详细的介绍,可以查阅更多信息。

测试对图像输入的理解的任务

预计专家将只把对下游任务有用的信息写到有限的共享工作空间。我们用一个处理多种视觉信息的任务和以下基线来测试这个想法

  • TR (Transformers): 每层有共享参数的变压器
  • STR(稀疏变压器):具有稀疏注意矩阵的变压器
  • TR+HC(高容量变压器):每层都有不同参数的变压器
  • TR+SSW(带有软竞争的共享工作区的变形金刚):包含软关注的共享工作区的变形金刚
  • TR+HSW(具有共享工作区和top-k竞争的变压器):包含共享工作区和top-k关注的变压器

检测等边三角形:检测等边三角形的任务

任务是对出现在64*64图像中的点云是否是等边三角形进行二元分类,而基线TR是视觉变换器(ViT)。图像被分为4*4个补丁,并输入一系列的图像。由于任务可以通过关注特定的信息来解决,我们可以假设,共享工作区由于容量有限,可以只关注重要的信息,从而提高准确性。结果(图3)支持这一假设,TR+HSW比基线TR有更小的方差和更好的准确性。

CATER:物体追踪任务

给予卡特一段视频,任务是猜测目标物体在视频结束时将出现在6*6网格的哪个单元中。如果目标物体在最后一帧中没有被隐藏,这很容易解决,但也有目标物体被障碍物隐藏的情况,所以我们需要能够推断出即使是不可见物体的长期跟踪精度。从表1可以看出,所提出的方法TR+HSW和TR+SSW比基线略好。

虽然在这个实验中,准确率没有明显的提高,但作者认为,尽管任务难度很高,但6*6的36级分类取得了与基线相同或更好的准确率。

Sort-of-CLEVER: A Relational Reasoning Task

该任务是一项推理任务,向你提出一个关于物体之间关系的问题,并给你一个物体的图像。为了正确回答问题,用户必须把注意力集中在一个特定的物体上,这个物体被随机地安排在一个75*75的图像中,有六种不同的颜色和两种不同的形状。每张图片都有10个非关系问题:"红色物体的形状是什么?"和10个关系问题:"离红色物体最近的物体的形状是什么?对于每张图片,有10个非关系性问题:"红色物体的形状是什么?该任务将被划分为补丁的图像作为输入,就像在ViT中一样,并将其视为一项分类任务,因为CLEVER排序的答案是有限的。

从结果中可以看出(图4),对于关系型问题和非关系型问题,拟议的共享工作区方法收敛得更快,而且有更好的准确性。因此,我们认为,对于具有这种离散信息的任务,共享工作区比传统的变形金刚架构更有优势。

物理推理任务:对物理过程进行推理

在物理过程推理任务中预测边界球的运动需要分别捕捉每个球的运动。该任务给出了前10帧,并通过第30和45帧的预测损失进行评估,使用LSTM、RIMs和RMC作为基线,以检查RIMs+共享工作区的准确性改进。实验是在几种不同的条件下进行的,所有的结果都表明,带有共享工作区的RIMs提高了准确性,在大多数条件下都优于RMC。

多Agent星际争霸世界建模的共享工作空间。

最后,我们用《星际争霸》这个多代理游戏环境(SC2领域)进行了实验。这是一个非常具有挑战性的环境,因为每个代理人都有复杂的技能和特征,以及攻击、防御和HP值等状态指标。然而,游戏的性质,及其离散的属性和它们之间的相互作用,很适合模块化的RIM+共享工作空间架构,并证实了所提方法的有效性。实验细节请参考附录G。

表2中的RIM不准确的原因是,RIM的成对互动不适合这项任务,因为在这项任务中,应该同时考虑三类以上的信息,因为每个RIM是两个专家之间的交流。结果,使用共享工作空间的拟议方法比LSTM和RIMs更准确,表明在不同专家之间保持信息一致的想法是有效的。

摘要

受认知科学的全局工作空间理论的启发,本文研究了RIMs和Transformers的扩展与共享工作空间,以保持所有专业模块的信息一致性。通过一些实验,我们表明,使用共享工作区的所有模块之间的协调比配对互动的基线更有效。

从个人角度来看,所提出的方法试图将重要的概念纳入深度学习,如因果推理的独立机制和认知科学的全局工作空间,尽管它没有产生任何突出的实验结果。我们认为,这是探索新架构背后的动机,因为现有的深度学习架构不足以实现所谓的强人工智能。当目前拥有大模型和大数据的人工智能来临时,对这种架构的研究一定会变得更加重要,所以我认为值得深入挖掘。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们