赶上最新的AI论文

BERT中位置嵌入的理想特性是什么?

BERT

个要点
✔️ 广泛分析位置嵌入的属性和特点。
✔️ 从三个度量分析位置嵌入:平移不变性、单调性和对称性。
✔️ 实验并验证位置嵌入在各种下游任务中的有效性。 

On Position Embeddings in BERT
written by Benyou WangLifeng ShangChristina LiomaXin JiangHao YangQun LiuJakob Grue Simonsen
(Submitted on 29 Sept 2020 (modified: 02 Mar 2021))
Comments: Accepted to ICLR2021.

Subjects: Position Embedding, BERT, pretrained language model.
 
code:  

首先

在基于Transformer的模型中,位置嵌入(PE)被用来理解输入令牌的位置信息。该PE有多种设置,如绝对/相对位置、可学习/固定等。

那么,你应该用什么样的PE呢? 或者说,PE的哪些特性会给人带来优秀的表现?在本文介绍的论文中,提出了三种性质,即平移不变性、单调性和对称性,作为分析和解释PE的有效指标。此外,还进行了各种PE的对比实验,对前面的问题进行了解答。

位置编码的属性

关于位置编码的三种特性,原论文提出了以下三种特性

特点1、单调性

首先,让$/phi(⋅,⋅)$成为计算位置嵌入(如内积)之间的接近度的函数。单调性是指两个位置嵌入之间的距离越远,接近度越小的特性。

$\forall x,m,n \in N: m>n \Leftrightarrow \phi(\overset{\rightarrow}{x}, \overset{\longrightarrow}{x+m}) < \phi(\overset{\rightarrow}{x}, \overset{\longrightarrow}{x+n})$

$\underset{x}{\rightarrow}$表示位置$x$处的位置嵌入。

特性2.翻译不变性

翻译不变性是指相对位置相等的两个位置嵌入的接近性是不变的。

$\forall x_1,...,x_n,m \in N: \phi(\overset{\rightarrow}{x_1}, \overset{\longrightarrow}{x_1+m}) = \phi(\overset{\rightarrow}{x_2}, \overset{\longrightarrow}{x_2+m}) = ... = \phi(\overset{\rightarrow}{x_n}, \overset{\longrightarrow}{x_n+m})$

特征3.对称性

对称性是指两个位置嵌入的接近性具有以下性质:

$\forall x,y \in N: phi(\overset{\rightarrow}{x}, \overset{\rightarrow}{y})=phi(\overset{\rightarrow}{y}, \overset{\rightarrow}{x})$

基于这三个特性,我们将研究各种位置嵌入。

根据特征理解位置嵌入

绝对和相对位置嵌入(APE/RPE)

位置嵌入有两种类型:绝对位置嵌入(APE)和相对位置嵌入(RPE)。除了嵌入代表的是绝对位置($x\in N$)还是相对位置($x-y,x,y \in N$)的区别外,它们之间的注意力计算机制也有区别,如下图所示。

$WE_x$表示单词嵌入,$P_x$表示绝对位置嵌入,$P_{x-y}$表示相对位置嵌入。接下来,我们研究下面所示的四种现有的位置嵌入类型,每种类型都是基于上述特性的。

关于正弦波位置嵌入

在正弦波PE的情况下,两个位置向量之间的点积如下所示。

在正弦波PE的情况下,内积只与$x-y$有关,所以满足性质2(平移不变性)和性质3(对称性)。属性1(单调性),另一方面,相当于图谱$/psi(m)=sum^{D/2}_{i=1}cos(\omega_i m)$的单调性。这在区间内是单调的,其中$omega^{/prime}(m)=/sum^{D/2}_{i=1}-/omega_i sin(/omega_i m)$的导数$/psi(m)$不改变符号。

因此,单调性有效的范围取决于$/omega_i$的值。例如,在$omega_i=(1/10000)^{2i/D}$的情况下,单调性在m介于0和50之间的范围内是有效的,但在超出这个范围的范围内则无效。因此,通过使这个$/omega_i$可以学习,我们可以自适应地调整单调性的范围。

关于相对位置嵌入

RPE编码的是相对距离,而不是一个词的绝对位置。从性质上看,性质2(平移不变性)成立(如果$x_1-y_1=x_2-y_2$,则定义为$P_{x_1-y_1}=P_{x_2-y_2}$)。

至于属性3(对称性),当正向/反向的嵌入不同($P_{i-j} \neq P_{j-i}$)时,它不再有效。在正弦RPE的情况下,特征1(单调性)具有局部单调性,取决于$\omega$的值,就像在正弦APE的情况下一样。但不同的是,在正弦RPE中,维度与每个头的维度相同(在BERT中为64),而在APE中为768。还要注意的是,在正弦RPE的情况下,如果相对位置的绝对值相等,则嵌入是一样的(不管前后)。

实验

首先,我们研究下表中列出的六种基本位置嵌入(及其组合)的特性。

对这些位置嵌入的上述三种特性的定量评价如下。

位置向量之间的点积

对于APE和RPE,任意两个位置向量之间的点积(可视为接近)如下

关于APE

在APE中,相邻位置向量的点积(如(a)中从左上到右下的对角线上)较大。这种倾向在可学习的正弦APE(c)的情况下尤为明显。我们还可以看到,当在APE中加入RPE时,总体趋势变化不大((b)、(d))。

关于RPE

在完全可学习的RPE((e),(f))中,在垂直和水平方向上有亮区。这意味着,当相对位置的绝对值较小时,位置嵌入与其他相对位置向量有很大的不同。另外,对角线方向的暗部区域表示相对位置绝对值大的情况下的位置嵌入是相似的。

换句话说,完全可学习的RPE可以区分相对位置的非常小的绝对值,但不能区分非常大的绝对值。这可能是由于完全可学习的RPE特别关注局部依赖性。

下游任务中的PE

我们比较了PE在分类和跨度预测任务上的性能。具体来说,我们以GLUESQuAD为基准进行微调,并评估每个数据集5次运行的平均值。

胶水中的PE

GLUE基准的结果如下

在GLUE上,完全可学习的APE表现良好,比其他只使用APE/RPE中的任何一种的情况下,显示出更好的整体效果。

关于APE和RPE结合的情况,完全可学习的APE+可学习的正弦RPE相对更好。我们还发现,APE和RPE的结合并不一定能提高性能。

四年级的体育课

SQuAD基准的结果如下

在SQuAD上,几乎所有使用RPE的BERT模型都明显优于完全可学习的APE。SQuAD V1.1/V2.0中表现最好的模型都是使用完全可学习的RPE。

GLUE和SQuAD的这些差异可以归因于绝对位置嵌入(APE)在处理[CLS]令牌方面的相对优势,这对分类任务(GLUE)很重要。此外,总体上可学习的正弦APE/RPE优于固定的正弦APE/RPE,证明了灵活变化$omega$的有效性。此外,我们发现将APE和RPE结合起来,在某些情况下可以提高性能。

PE特征与任务之间的关系

引言中介绍的三种位置嵌入特性与下游任务的相关性如下表所示。

接近1(-1)的数字表示任务绩效与违反特征的正(负)相关程度。

因此,我们发现,违反局部单调性和平移不变性(许多负数)是不利的,而违反对称性(许多正数)是有利的。对称性导致难以区分前面和后面的代币,这对许多任务来说似乎是一个不可取的属性。

摘要

在本文中,我们定义了三种分析位置嵌入的指标,并对各种位置嵌入进行了对比实验。结果表明,打破翻译不变性和单调性会降低下游任务性能,而打破对比度会提高下游任务性能。我们还发现,完全可学习的绝对位置嵌入普遍提高了分类任务的性能,而相对位置嵌入提高了跨度预测任务的性能。

位置嵌入是基于Transformer的高度成功的架构中不可或缺的一部分。这项工作具有重要意义,因为它为位置嵌入提供了有益的见解。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们