机器翻译的无监督学习仅来自生成语言模型!

自然语言处理 24/12/2021

三个要点
✔️ 从只在单一语言上训练过的语言模型中导出机器翻译功能
✔️ 通过回译产生翻译实例
✔️ 通过放大翻译实例合成数据集

AutoFormer: Searching Transformers for Visual Recognition
written by Jesse Michael Han, Igor Babuschkin, Harrison Edwards, Arvind Neelakantan, Tao Xu, Stanislas Polu, Alex Ray, Pranav Shyam, Aditya Ramesh, Alec Radford, Ilya Sutskever
(Submitted on 11 Oct 2021)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

简介

无监督的神经机器翻译包括，例如，引导一个弱的翻译模型，然后通过回译放大其翻译能力。在这项工作中，我们进一步简化了现有的无监督的神经机器翻译研究，只使用生成性语言模型。我们表明，只用预先训练好的语言模型，就可以得出最先进的无监督神经机器翻译。

背译

背译被介绍为一种数据增强方法，它通过从目标到源的翻译模型中抽取合成源到目标的数据，在目标方使用单语数据。

在这项研究中，我们将机器翻译看作是一项语言建模任务，我们从一个单一的语言模型中联合训练和取样，用于源-目标和目标-源的翻译。

给定一个L1和L2语言的咬文嚼字<seq1, seq2>，我们将翻译任务表述如下

[L1] <seq1> [[TranslATE]] [L2] <seq2]。

测试时，语言模型的输入为[L1] <seq> [[TRANSLATE]] [L2]，候选翻译<sampledSeq>从输出中解析。反向翻译是通过反转seq，和sampledSeq，以及微调bitext〈sampledSeq，seq〉来实现的。请注意，同一语言模型被用于双向翻译。

在前向和后向翻译中使用单一的语言模型，并在每次迭代时在两个方向上共同训练它。有不同的方法来训练一个使用反向翻译的模型。

算法1是使用生成性语言模型pθ的反翻译的实现。

pθ是一个格式化的

([L1] <seq1> [[TranslATE]] [L2]) 从

([L1] <seq1>[[TranslATE]] [L2] <seq2>) 到

假设你已经学会了完成它。

为了完成这种回译，你需要准备这样一个语言模型。在这里，我们使用GPT-3系列的语言模型，在互联网的大型数据集上进行训练。　众所周知，大规模的生成性语言模型具有很强的语境中元学习能力。其中两种特殊情况是：(1)遵循指示和(2)少量的提示。

大规模的语言模型得益于任务中详细的自然语言描述，通过提供上下文中的例子，可以在各种任务（问题回答、推理、翻译）中取得强大的性能。预先训练好的模型的几张照片的翻译能力需要调整为零张照片的格式进行回译，这是一个两步的过程。首先，从GPT-3中抽出少量的零拍翻译。

给定一个srcLang和tgtLang咬文嚼字<srcSeq, tgtSeq>和一个停止序列<sep>，使用以下格式进行零点提示

<sep> 鉴于<srcLang>中的以下段落：<sep> <srcSeq> <sep>一个好的<tgtLang>翻译是。<sep> <tgtSeq> <sep>。

测试时，取样直到检测到停止序列<seq>，并将<sep>始终设置为/n----n。这种零散的转换被用作少数的提示，通过从一个较小的模型中抽取较大的合成数据集来放大翻译。

然后，通过用比特文本进行微调，我们可以为这项任务建立一个语言模型。

引导法的实施方法如下

1 在大型语料库上对语言模型pθ(⋅)进行生成性预训练

2 对于少量的提示，我们从另一个语言模型q(⋅)中抽取零次的NS合成目标侧转换和NS目标侧转换。

　　使用源端语料库MS(或目标端语料库MT)从pθ(⋅)中抽取一个CS合成的目标端翻译(或CT合成的源端翻译)，并从NS(或NT)中随机抽取k个拍摄实例。

3 (提示，翻译样本) 重新格式化数据并为这些数据微调语言模型pθ(⋅)。

4 反转所有数据，并继续用回译对语言模型pθ(⋅)进行微调（样本翻译，提示）。