分解变形金刚以捕捉独立机制？

Transformer 13/08/2021

三个要点
✔️ 将独立机制假说纳入转化器中
✔️ 使用注意机制将变压器分解为多个模块
✔️ 证实了使用变形金刚在广泛的任务中的有效性。

Transformers with Competitive Ensembles of Independent Mechanisms
written by Alex Lamb, Di He, Anirudh Goyal, Guolin Ke, Chien-Feng Liao, Mirco Ravanelli, Yoshua Bengio
(Submitted on 27 Feb 2021)
Comments: Accepted by ICML 2021.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

简介

正如在流行的零拍语言生成器GPT-3和非分布式图像生成器DALL-E中看到的那样，Transformer架构在一个大的潜在表示中学习所有位置信息。然而，这意味着不相关的信息在同一时间被处理，限制了捕捉世界上存在的独立结构的能力。本文介绍了Transformer独立机制（TIM），这是Transformer的一个改进，可以解决这个问题。

TIM的一个关键概念是独立机制假说，它指出物理现象可以被认为是独立模块的运动，受其背后存在的独立机制所支配。事实上，这种独立机制假说是因果推理界的一个重要前提，但在深度学习中涉及它的研究仍然很少，如独立因果机制和Reccurent独立机制。机制。今天，我们将讨论TIM是如何设计的。它是如何设计的？它使用什么样的实验装置？在这篇文章中，我将解释TIM是如何设计的，以及如何在实验环境中使用它。

TIM架构

作者提出的TIM可以被看作是一种架构，其中变压器被分解成几个独立的部分，因此几个机制模块被放置在一个位置。

一个非常简单的例子，每个位置有三个机械装置，如图2所示。该架构是这样的：潜变量由FFN前向传播网络沿两轴更新，此前信息由Attention计算沿两轴共享，即位置轴（对应于序列模型的时间轴）和机制模块的轴，分别更新。所提出的方法TIM是对标准Transformer层的简单替换，可以很容易地应用于使用Transformer的其他方法。现在我们将按照算法的四个步骤解释TIM的细节。

机制之间的竞争

首先，为了提高每个Mechanisms模块的专业化程度（一个模块执行一种类型的处理的特性），我们将只通过计算Attention来共享信息，同时拥有自己的参数。然后，由于我们想引入更强的归纳偏见，我们引入了一种机制，通过Attention来计算相关性分数，类似于之前的研究RIM，以诱发竞争。

具体来说，正如算法第1步中的方程式所示，每个模块（h）的表示被线性转化为一个单一的值（GroupLinear），然后用Softmax计算法计算出一个分数。然后，该分数被用来权衡信息的可访问性和机制模块的更新程度。这个权重通过沿位置轴进行Attention来更新潜变量，这将在后面描述。

为了确保每个 "机制 "模块都能获得它想获得的信息，其他模块的相关性分数必须保持在较低水平，预计这将产生提高 "机制 "模块的专业化程度的效果。

定位轴上的信息共享

在下一步2中，每个Mechanism模块沿位置轴进行注意计算，并进行线性变换（GroupLinear）。GroupLinear，也出现在步骤1中，指的是只在划分的模块（Groups）之间进行的一层线性变换，而不是一般的（Linear）线性变换。最后，通过对步骤1中计算的分数进行加权，对潜变量h进行更新和同质化。需要注意的是，一个仅由位置轴上的信息共享组成的架构可以简单地看作是几个独立的变形器的组合。

关于机制模块轴的信息共享

我们已经做到了每个机制模块独立处理信息，但我们认为模块之间最小的信息共享也是必要的。在第3步中，通过进行注意力计算，只使用32个单元2头的多头注意力，沿着机制模块轴共享少量的信息。

在前向传播中更新潜变量

在第4步中，我们通过在FFN前向传播网络中对两个轴，即机制轴和位置轴进行线性变换来更新潜变量h。

实验

作者回答了两个问题，以确定TIM对一个被认为包含独立机制的数据集的有效性。

1.TIM能否以合理和有意义的专业知识学习机制模块？这个问题将在玩具数据和现实生活中的大规模语音识别和语言处理任务中进行测试。

2.具有独立机制的模型能否用于提高定量的准确性？这个将在语音增强和BERT的MLM等任务中进行测试。

由于Transformer被广泛用于各种领域，并且可以通过简单地用TIM替换Transformer来进行实验，读者不妨考虑自己的研究课题是否存在独立的机制，以及是否可以应用TIM。

图像变换器

在这里，我们使用一个将TIM纳入GPT-2架构的图像生成模型，以两种截然不同的机制解决一个自制的任务。

具体来说，我们将通过使用一个合成的数据集，左边是MNIST数字，右边是随机选择的CIFAR图像，将一个兴奋的机制模块可视化，来评估我们是否能在一侧进行专业化。

从图3的右侧，我们可以看到，TIM能够将不同的机制模块专门用于该合成数据集的两边。有趣的是，在学习过程开始时专攻颜色亮度的模块可以随着学习过程的进行而专攻双方不同的数据集。

我们还能够对CIFAR-10数据集的物体和背景进行专门研究（图3左）。

语音增强

语音增强是改善现实世界中嘈杂的语音数据质量的任务。基于信号处理技术的传统方法，通过检测和去除非语言性的声音来实现这一目标。近年来，基于Tranformer的方法已经显示出其比传统方法更有效。

如果我们认为这是对不同机制产生的数据的处理，并将有语言意义的声音和无语言意义的声音明确分开，那么TIM就很适合这项任务。

表3显示了在优质语音数据加噪声语音的DNS数据集上使用PESQ衡量声音质量的实验结果。所提出的方法TIM实现了SOTA，其参数仅为最先进的方法PoCoNet的1/8。

图5中的可视化图还显示，随着层数的加深和模块的专业化程度的提高，机制模块的独立性变得更加明显。

此外，在VoiceBank数据集上的实验结果（表2）表明，在TIM中加入竞争机制不会受到输入的不相关信息变化的影响，从而导致准确性的提高。

通过加入TIM来改进BERT的实验

对于自然语言处理（NLP）任务，我们用TIM取代了BERT，BERT在用屏蔽语言模型进行预训练时，在各种下游任务中显示出有效性，除了前两层和最后一层（9/12层），其他都是如此。我们还试验了两个Mechanism模块，其参数与BERT相似，并与BERT进行了比较。

与BERT一样进行了预训练，并在几个数据集上进行了微调，以比较每个数据集的准确性。从结果来看（表1），作者认为TIM经过一些简单的改变，提高了准确性，而且TIM是更好的NLP架构。然而，这个结果只是一个微小的改进，作者认为这并不明确，需要更好的结果。

CATER：隐藏物体追踪任务

CATER的任务是推断出要追踪的物体在视频结束时位于6x6网格的哪个单元。还有一种情况是，我们要追踪的球隐藏在杯子下面，在这种情况下，我们需要能够追踪每个物体的运动，因为在最后一帧中物体是不可见的。

在对给定视频的每秒6幅图像进行采样后，我们用ResNet提取特征。然后，我们将结果与作为基线的LSTM和Transformer进行了比较，以完成从系列数据进行预测的任务。可以看出，使用大量的Mechanism模块（n_s = 8）会使准确度得到显著提高。

摘要

本文指出了将所有信息作为一个单一的大型潜变量来处理的变压器的缺点，并提出了一个包含独立机制概念的TIM。TIM的有效性在图像、语音、语言处理和推理等广泛的任务中得到了证明。

正是因为Transformer在如此多的领域中如此活跃，所以准确度的小幅提高就有可能产生大的影响。特别是，如果世界是由独立机制驱动的假设确实是正确的，我提出这篇论文的想法是，TIM必须对更多的情况和领域做出贡献。

与本文相关的类别

匿名

分解变形金刚以捕捉独立机制？

简介

TIM架构

机制之间的竞争

定位轴上的信息共享

关于机制模块轴的信息共享

在前向传播中更新潜变量

实验

图像变换器

语音增强

通过加入TIM来改进BERT的实验

CATER：隐藏物体追踪任务

摘要

跨层关注大大减少了变压器内存

跨层关注大大减少了变压器内存

I-ViT：以整数类型计算 ViT！此外，还提供由 I-BERT 技术发展而来的 Shiftmax 和 ShiftGELU！

I-ViT：以整数类型计算 ViT！此外，还提供由 I-BERT 技术 ...

[MusicLM]谷歌开发的文本到音乐生成模型。

[MusicLM]谷歌开发的文本到音乐生成模型。

稀疏变换器：解决计算复杂度随输入序列长度增加问题的创新方法。

稀疏变换器：解决计算复杂度随输入序列长度增加问题的创新方法。

突破计算时间和内存的限制！

突破计算时间和内存的限制！

LONGNET：一种可处理多达 10 亿 Token 文本的模型。

LONGNET：一种可处理多达 10 亿 Token 文本的模型。