如何解决BERT的微调不稳定问题？

BERT 03/03/2021

三个要点
✔️ 分析基于变压器的预训练模型（如BERT）微调的不稳定性。
✔️ 确定由于梯度消失和广义化差异造成的初始优化困难是不稳定的来源。
✔️ 提出新的基线，提高微调的稳定性。

On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines
written by Marius Mosbach, Maksym Andriushchenko, Dietrich Klakow
(Submitted on 8 Jun 2020 (v1), last revised 6 Oct 2020 (this version, v2))
Comments: Accepted to ICLR2021.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code:.

首先

基于变压器的预训练模型，如BERT，已经被证明在各种任务上表现良好，并进行了微调。与如此良好的性能相比，BERT的微调并不稳定。也就是说，根据不同的随机种子，任务的表现会有很大的不同。

灾难性遗忘和数据集规模小被推测为这种微调不稳定的原因。在本文介绍的论文中，我们表明，这些假设不能解释微调的不稳定性。

此外，他们还分析了BERT、RoBERTa和ALBERT，表明微调的不稳定性是由两个方面引起的：优化和泛化。此外，根据分析结果，他们提出了一种新的基线，可以稳定地进行微调。

实验

数据集

对于微调的分析，我们使用了如下所示的四个数据集。

CoLA（语言可接受性语料库）：识别特定句子的语法正确性。
MRPC（Microsoft Research Paraphrase Corpus）：给定两个句子，识别它们是否同义。
RTE(Recognizing Textual Entailment)：给定两个句子，它识别我们是否可以推断出如果一个是正确的，另一个也是正确的。
问答式自然语言推断（QNLI）：给定一个问题和一个句子，识别该句子是否为正确答案（SQuAD数据集的二元分类版本）。

这组数据的统计结果如下：

这些都是GLUE任务中包含的基准。在这四者中，以往的工作表明，CoLA的微调特别稳定，RTE特别不稳定。

超参数的设置等。

微调的超参数和模型的设置如下。

型号：无壳BERT-LARGE（或RoBERTa-LARGE，ALBERT-LARGE）。
批量：16
学习率: 2e-5 (在前10%的迭代中，从0到2e-5线性增加，然后线性减少到0)
辍学率：$p=0.1$(ALBERT中为0)
权重衰减:$\lambda=0.01$(在RoBERTa中为0.1，无梯度剪切)
优化器:AdamW(无偏差修正)

之所以采用LARGE模型，是因为它在微调BERT-BASE的过程中不会造成不稳定。

关于微调的稳定性

根据微调过程中性能（F1得分、准确率等）与算法随机性的标准差大小来判断微调的稳定性。

关于执行失败的判断

如果训练结束时的准确率小于或等于每个数据集对应的许多分类器的准确率，则判定微调为"失败"。

关于微调不稳定原因的假说

以往的研究假设，微调不稳定的原因是灾难性遗忘和数据集规模小。

在实验中，首先检验这些假设。

灾难性遗忘是否会诱发微调不稳定？

灾难性遗忘指的是当一个训练好的模型在另一个任务上进行训练时，它在前一个任务上的性能会下降的现象。在本实验的环境中，对应的是BERT等预训练期间，微调后无法正确执行任务（如MLM）。

为了研究这种灾难性遗忘和不稳定性之间的关系，他们进行以下实验。

对RTE数据集进行BERT微调。
分别选择三个成功的学习试验和三个不成功的试验。
对于他们，我们基于WikiText-2语言建模基准的测试集，对MLM（Masked Language Modeling）的迷惑性进行了测量和评估。
通过将24层中的上层$k$层（$0 \leq k \leq 24$）替换为预训练模型，研究灾难性遗忘和不稳定性之间的关系。当$k=0$时，所有层都是微调模型，当$k=24$时，所有层都是预训练模型）。

本实验结果如下：