使用随机标签可以提高文本分类的效果!

自然语言处理 27/07/2021

三个要点
✔️ 在预测程序中没有额外计算成本的情况下提高性能
✔️ 也验证了标签混淆模型（LCM）比标签平滑方法的优越性。
✔️ 事实证明，LCM在混乱和嘈杂的数据集上特别有效，并且在很大程度上优于标签平滑（LS）。

Label Confusion Learning to Enhance Text Classification Models
written by Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu
(Submitted on 9 Dec 2020)
Comments: Accepted by AAAI 2021.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文件，要么是参照论文件制作的。

简介

文本分类是自然语言处理的基本任务之一，具有广泛的应用，包括新闻过滤和垃圾邮件检测。文本分类已被特别应用于基于深度学习的方法，并取得了很大的早期成功。一些深度学习模型已经成功地应用于文本分类问题，所有这些模型都有相同的学习范式：一个用于文本表示的深度学习模型，一个预测标签分布的分类器，以及预测的概率分布和一次性标签向量之间的交叉熵损失。然而，这种学习范式至少有两个问题。

在一般的文本分类任务中，一次性标签是基于所有类别都是相互独立的假设。然而，在实践中，标签往往不是完全独立的，实例与一个以上的标签有关是很常见的。因此，简单地将一个真实的标签表示为一个镜头，并没有考虑到实例和标签之间的关系，这限制了深度学习模型的学习能力。
深度学习模型在很大程度上依赖于大型注释数据集。带有标签错误的噪声数据会降低分类性能，但在人类注释的数据集上是不可避免的。用一次性标签进行训练很容易出现错误的标签，因为它们被完全分配到错误的类别。

简单地说，当前学习范式的局限性导致了预测的混乱，即模型难以区分几个标签。这被称为标签混淆问题（LCP）。标签平滑法（LS）是解决这一问题的流行方案，它被提出来以改善单次向量标签的低效率，但它不足以解决问题，因为它不能捕捉标签之间的现实关系。

因此，在这项研究中，我们提出了一个新的标签混淆模型（LCM），作为当前深度学习文本分类模型的一个增强组件。

审查（如果你不需要，你可以跳到提案法）

使用深度学习的文本分类

深度学习文本分类可分为两大类

有一项研究专注于词的嵌入（2014年）。
研究深度学习结构，可以学习更好地表达文本。
典型的深度结构是语言模型，如LSTM、RNN和BERT。由于结构研究能够从文本中学习高级语义表征，文本分类已经变得如此精确。而这比手工制作的功能效果要好得多。

标签混淆问题的常规方法

标签平滑化

标签平滑（LP）首次被提出用于图像分类任务，作为一种正则化技术，以确保模型不会以过高的置信度过度预测训练实例。标签平滑（LS）通过计算这些目标的加权混合物与均匀噪声分布的损失，而不是硬性的一击，提高了模型的准确性。这提高了模型的准确性。然而，它不能反映真实的标签分布，因为它只是通过添加噪声获得。真正的标签分布揭示了一个实例和每个标签之间的语义关系，相似的标签在分布中应该有相似的程度。点击这里了解更多（标签平滑化背后的真相！！）

标签嵌入

标签嵌入学会了在分类任务中嵌入标签。通过将标签转化为语义向量，它将分类问题替换为向量匹配任务，可以解决这个问题。然后，我们使用Attention来联合学习单词和标签嵌入，使其成为一个捕捉标签之间联合关系的多标签分类模型。

这个标签嵌入的概念也被用于所提出的方法中，所以请记住它

标签分布学习

标签分布学习（LDL）是一种新的机器学习范式，适用于标签的整体分布很重要的任务。LDL已经被提出用于标签分布很重要的问题，并且也有用于此类任务的算法。然而，在许多现有的分类任务中，如20NG和MNIST，很难获得真正的标签分布，因为每个样本只被分配一个唯一的标签。在这种情况下，LDL是不适用的。

建议的方法

所提议的方法的示意图如下所示。

具体来说，拟议方法的框架由两部分组成：基本预测器（左侧所示）和标签混淆模型（LCM）（右侧所示）。

基本预测器

这部分过程包括使用不同的编码器（如RNNs、CNNs和BERT）处理输入，以获得句子的语义表示，最后用Softmax对数据进行分类。最后，输出是对标签分布的预测，这与传统方法没有区别。它可以表示为

标签混淆模型（LCM

在One-hot中直接表示标签将是对标签信息的一种浪费。我们还认为，它产生了对模型的过度拟合。

具体来说，它首先使用一个标签编码器（如MLP或DNN）对输入标签进行编码，以获得标签表示矩阵。接下来的模拟标签分布（相似度标签计算模块）由相似度层和SLD计算层组成。相似性层将标签表征和当前实例表征作为输入，将它们的相似性计算为点积，然后应用具有softmax激活的神经网络来获得标签混淆分布。混淆分布能够通过计算实例和标签之间的相似度来获得标签之间的依赖关系。这使得标签混淆分布成为一个取决于实例的动态分布，这比只考虑标签之间相似性的分布，或者像标签平滑那样简单的均匀噪声分布要好。

最后，原始的单次拍摄矢量被添加到带有控制参数α的LCD中，并用softmax函数进行归一化，以产生模拟标签分布SLD。这个过程可以用以下方式表示

这里我们可以看到，传统方法模型预测的标签SLD的概率分布y（s）和第二步得到的模拟标签分布y（p）都是概率分布。为了衡量差异，我们使用Kullback-Leibler分歧（KL-divergence）作为损失函数。它有以下形式

用LCM学习意味着模型试图适应的实际目标会根据深度模型所学到的文档的语义表示或标签而动态变化。对所学标签分布的模拟有助于更好地表示具有不同标签的实例，特别是对于混乱的样本。SLD还允许模型即使从错误的标签数据中学习有用的信息，因为在面对嘈杂的数据时，错误的标签的概率被分配给类似的标签（通常包含正确的标签）。这样就完成了对整体技术细节的解释。因此，在本文中，我们仔细模拟了标签的分布和它们之间的关系，并分析了它们之间的依赖关系，同时考虑到了输入，从而实现了动态标签编码，考虑到了输入，使模型能够最好地利用标签数据。

实验设置

数据集

为了评估所提出的方法的有效性，在五个基准数据集上进行了评估，包括三个英文数据集和两个中文数据集。

20NG
一个英语新闻数据集，包含18846个文件，平均分为20个不同类别。
AG的新闻数据集
127600个样本，包括4类。我们选择了50000个样本的子集进行实验。
DBPedia数据集
这是一个本体分类数据集，有6.3万个样本，分为14个类别；随机选择5万个样本作为实验数据集。
FDCNews数据集
9833个中国新闻数据集，分为20个类别。
THUCNews数据集
这是一个由清华大学收集的中文新闻分类数据集。从这个数据集中，构建并使用了一个包含39,000条新闻的子集，平均分为13个新闻类别。

模型

标签混淆模型（LCM）可以通过与当前主流模型的整合来使用。因此，我们只使用在文本分类任务中广泛使用的常见模型结构。在实践中，我们使用LSTM、CNN和BERT。有关模型和各种详细参数，请参考原始出版物。

实验结果

在实验部分，已经进行了几个实验，具体如下。具体结果如下表所示。该表显示了基于LCM的测试性能和仅有基本结构的测试性能之间的比较。

结果显示，当使用LSTM-rand、CNN-rand和BERT结构时，基于LCM的分类模型在所有数据集上都优于基线。然而，基于LCM的CNN-pre模型在FDCNews和20NG数据集上的表现轻度恶化。五个数据集与三个广泛使用的基础模型的总体结果表明，LCM有能力提高文本分类模型的性能。此外，基于LCM的模型具有较低的标准偏差。在20NG数据集上，LCM比基线LSTM-rand有最大的改进，测试性能提高了4.20%。与同一数据集的CNN-rand相比，也有明显的性能改进，即1.04%。

在20NG的数据集中有20个类别。按理说，类别越多，模型就越难区分同组的标签。此外，下图显示了20NG数据集中20个标签的学习标签表示法的可视化。

标签表征是从LCM的嵌入层中提取的。图a显示了标签表征的余弦相似度矩阵，其中对角线元素表示一个标签与另一个标签的相似程度。图b显示了使用t-SNE在二维地图上的高维表示的可视化。图b显示，容易混淆的标签，特别是来自同一组的标签，往往有类似的表示。由于所有的标签表征最初都是随机初始化的，我们可以看到，LCM能够学习非常有意义的表征，反映标签之间的混淆。

使用LCM的分类模型通常能得到更好的测试性能，其原因可以分为几个方面。

LCM在训练过程中学习了一个模拟的标签分布，即SLD，并考虑到了输入文件和标签之间的语义相似性，这使得它能够理解标签之间的复杂关系。原因是这比使用简单的单次拍摄向量来代表真实标签要好。
一些数据集可能包含错误的标签数据，如大量的类别或非常相似的标签。在这种情况下，用一次性标签表示的训练往往会受到这些错误标签数据的强烈影响。然而，通过使用SLD，被误标的数据的索引被折叠并分配给类似的标签。因此，错误标签的误导可能已经变得相对较小。
除了错误的标签，如果给定的标签之间存在相似性（例如 "计算机 "和 "电子 "是语义上相似的主题，并且在内容上有许多共同的关键词，那么给文本样本贴上分布的标签，传达出信息的不同方面是自然和合理的。

在这篇文章中，我们只展示了作者提出主要主张的实验结果，但还有其他四个实验："LCM的阿尔法和早期停止的影响"、"数据集混淆的影响"、"噪声数据集的实验以及与标签平滑的比较 "和 "LCM在图像中的应用"。在每个实验中，都显示了LCM的有效性（详见原始论文）。