赶上最新的AI论文

用于低资源语言迁移学习的元表示法转换:MetaXL

自然语言处理

三个要点
✔️
对只有很少或没有训练数据的语言进行迁移学习是可能的
✔️ 这个想法是为了转化语言表征
✔️ 引入表象转换网络来进行元学习

MetaXL: Meta Representation Transformation for Low-resource Cross-lingual Learning
written by Mengzhou XiaGuoqing ZhengSubhabrata MukherjeeMilad ShokouhiGraham NeubigAhmed Hassan Awadallah
(Submitted on 16 Apr 2021)
Comments: Accepted by NAACL 2021.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code:  

首先

多语言学习模型的进步使我们有可能在广泛的自然语言处理任务中获得成功,但仍然存在着资源非常少的语言不容易被迁移的问题。

例如,多语言BERT(mBERT)已经在104种语言中进行了预训练,在维基百科上有很多文章,XLM-R已经在100种语言中进行了预训练。然而,这些模型仍然有200多种语言的数据非常少,更不用说6700多种根本没有维基百科文本的语言。

这种对资源非常少的语言的迁移学习对于更好地获取信息至关重要,但还没有得到很好的研究。

使用预训练模型进行语言间转移学习的研究主要集中在有足够训练数据的语言间的转移上,因此对于这些少数语言,由于数据不足,无法进行有效的微调。对于单独学习单词嵌入,我们需要一个足够大的单语语料库,但如上所述,这些语料库很难获得。

此外,最近的研究表明,不同语言的表征并不总是位于近似的位置,可以位于非常遥远的空间,特别是对于数据很少的语言。我们使用MetaXL,一种元学习方法,来弥补这一表征差距,并使语言间有效地转移到低数据语言。

MetaXL

语言模型的标准迁移学习方法是利用源语言和目标语言的标记数据共同微调多语种语言模型。 然而,在像这样的问题中,没有足够的目标语言的标记数据可用。

拟议方法的关键思想是就是要明确地学会转换源语言的表示方法.除了现有的多语言预训练模型外,我们还引入了一个额外的网络,称为表征转换网络,以明确地模拟这种转换。

  1. 源语言通过第一个转化器层、表征转化网络(RTN)和其余转化器层,从相应的源语言标签中计算出训练损失。
  2. 训练损失只被反向传播到Transformer层,但不更新表示转换网络。
  3. 元损失是从目标语言数据和目标语言标签的输出中计算出来的,只有表示转换网络被更新。

一个表征转换网络将一个d维的语言表征作为输入,并输出一个d维的转换后的表征。

假设有一个表征转换网络,可以适当地将表达式从源语言转换到目标语言,那么源数据可以被看作是在表征层面上与目标数据大致相等。

算法

我们使用预训练模型来初始化模型参数θ,并随机初始化表示转换网络的参数Φ。

Φ,θ的更新方程的含义是:。

首先,如果一个表征转换网络Φ有效地转换了源语言的表征,那么这样一个转换后的表征f(x;Φ,θ)应该比原始表征f(x;θ)更有利于目标语言。

这可以被表述为一个两级优化问题,因为该模型希望在目标语言中保持小的损失。 (等式(2))

L()是一个损失函数。表示转换网络的参数Φ是一个元参数,只在训练时使用,在测试时丢弃。

精确的解决方案需要在每次更新Φ时求解最佳θ*。对于像Transformer语言模型这样的复杂情况,这几乎是不可能的,因为它的计算量很大。

与涉及此类优化问题的现有工作()类似,我们不是为任何Φ求解最优的θ*,而是采用随机梯度下降更新方法,将θ作为特定Φ的最优估计。

用公式(3)更新θ,用公式(4)更新Φ,直到达到收敛。

学习和评估

我们对两个任务进行了实验:命名实体识别(NER)和情感分析分类任务。对于NER任务,我们使用跨语言的Wikiann数据集。每种语言的规模从100到20k不等。

情感分析任务使用了多语种亚马逊评论语料库(MARC)的20万英语部分,以及泰卢固语和波斯语语料库SentiPers是一个波斯语情感语料库,包括26000句用户对数字产品的意见Sentiraama是一个英语语料库。泰卢固语(tel)情感分析数据集。

NER的结果显示。当使用源语言的5k数据时,其结果与JT(联合训练)的结果进行了比较。

当同时使用源语言时,其准确性要比只使用目标语言时好得多,但很明显,使用相关语言时的效果要比使用英语时大。

因为情感分析,我们展示了使用英语进行1k数据时的准确性比较。

摘要

所提出的方法,即MetaXL,能够从数据丰富的源语言中有效转移,并能减少多语言表述之间的差距。未来的工作包括研究多种语言的转移,以进一步提高性能,并在预训练模型的多个层中放置多个表示转换网络。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们