对具有专业知识的数据进行预培训的重要性是什么？ ~ 将BERT应用于法律文件的分类~。

自然语言处理 02/04/2023

三个要点
✔️ 将BERT应用于法律文件的分类任务。
✔️ 微调并比较 "用含有法律专业知识的文本预训练的模型 "和 "用通用文本预训练的模型 "的准确性。
✔️ 还考虑将BERT应用于超过BERT限制512字的较长法律文件的方法

Effectively Leveraging BERT for Legal Document Classification
written by Nut Limsopatham
(Submitted on Nov 2021)
Comments: EMNLP | NLLP

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

深度学习的最新发展有助于提高自然语言处理（以下简称NLP）中各种任务的准确性，如文档分类、自动翻译和对话系统等。NLP的现实世界应用非常先进，NLP在法律领域的各种应用正在被考虑，这就是本文的主题。

近年来在NLP界受到特别关注的一个模型是BERT，这是谷歌在2018年发布的一个模型；BERT通过对大型无标签语料库进行预训练来获得关于目标语言的知识。

通过要处理的任务的数据集，对以这种方式创建的预训练模型进行微调，使我们有可能以比以前更低的成本建立性能更高的模型。

另一方面，BERT也面临以下挑战

不能有效地处理超过512字的文本
预学习的成本很高，因为它需要处理大型文本数据集

因此，在本文中，通过对法律文件的BERT分类任务，对

BERT如何处理长文本，如法律文件。
在需要专门知识的任务中，如法律，由具有该专门知识的语料库来说明先前学习的重要性。

关于的讨论。

具体来说，两个任务--使用《欧洲人权公约》违法数据集的违法预测和使用驳回任务数据集的驳回预测--被各种基于BERT的模型训练和评估，结果被比较和讨论.

前提知识

自然语言处理技术在法律领域的应用。

如前所述，NLP在法律领域的各种应用正在被考虑，其中的例子包括

预测违法行为。
预测判决结果
法律信息的提取
法院意见的产生

因此，已经开发了一些数据集，包括本研究中使用的《欧洲人权公约》数据集和推翻任务数据集。作为数据集的法律文件具有以下特点

在叙述性文本中描述的。
非结构化
含有专业词汇

而本研究的重点正是BERT对法律文件的分类。

关于BERT

在这项研究中，BERT被用来对法律文件进行分类；BERT有一个多层次的双向变压器编码器结构，其模型是

掩蔽语言模型从周围的词中预测出句子中的掩蔽词。
下句预测，给定两个句子，预测第二句是否是第一句的后续。

语言的知识是通过先前的学习，通过两个任务获得的。

BERT的一个常见的应用是在一个预先训练好的模型上对自己的任务进行微调和转移学习，并在一个大的数据集上发表，例如拥抱的脸。这种预训练的BERT+转移学习方法当时在GLUE和SQuAD等各种数据集上实现了SoTA。

本研究中用于法律文件分类任务的模型具有最简单的结构--BERT+线性转换层用于分类。

BERTによる法律文書分類モデルの概要図

最终的输出（分类结果）是通过对特殊标记和CLS的方差表示进行线性转换得到的。

BERT在法律领域的应用

BERT已经在各种研究中被用于与法律有关的任务。

Zheng等人发现，用法律文件预训练的BERT模型比用一般文本预训练的BERT表现更好。

Cahlkidis曾发表过，在使用由512个字以上的句子组成的数据集预测违法行为时，纯BERT没有给出很好的准确性。然而，通过使用层次化的BERT，这一挑战得到了解决。

长文本的BERT

使用纯BERT模型，一个句子中可处理的最大字数为512。然而，已经有人提出基于BERT的方法，可以处理比这更长的句子。

Beltagy, Zaheer等人通过改变注意机制的方法来解决这个问题。

Pappagari等人通过应用最大集合和平均集合将长句的分布式表征聚集成小于一定长度的分布式表征，然后将其送入BERT。因此，人们提出了各种将BERT应用于长句的方法，本研究将这些方法应用于法律文件的分类，以测试其性能如何？该研究考察了以下内容。

通过BERT对法律文件进行分类（实验性设置）

本章对整个研究中涉及的法律文件分类任务的实验设置进行了解释。

使用的数据集。

违反欧洲人权公约的数据集（多标签）。

该数据集中的具体案件/案例违反了'欧洲保护人权和基本自由公约'中的哪些规则？任务是预测标签类型的数量为40，数据集的概述如下。

ECHR Violation Datasetの概要

评估是通过计算测试数据的微观f1分数进行的。

推翻任务数据集

这个数据集被用于预测一个法律文本是否会推翻之前的判决的任务。作为一项任务，它是一个二元分类，数据集的概述如下。

Overruling Task Datasetの概要

请注意，在这项任务中，已经进行了10部分交叉验证。

超参数和优化函数

实验中使用的超参数和优化函数如下。

学习率：5e-5和线性学习率调度器
优化算法：AdamW
批次数：16
历时数: 5

使用的模型。

下一节将介绍所使用的模型。本研究中使用了以下四个基于BERT的预训练模型。

BERT：用BookCorpus和英语维基百科等通用文本预训练BERT（"bert-base-uncased "在拥抱的脸）。
ECHR-Legal-BERT：BERT（结构类似于 "bert-based-uncased"）是由包含ECHR数据集的法律文件预训练的。
Harvard-Law-BERT：BERT（结构类似于 "bert-base-uncased"）是在哈佛大学法律案例语料库（一种法律文件）上预先训练的。
RoBERTa：RoBERTa在通用文本上进行了预训练，如BookCorpus和CommonCrawl新闻（"roberta-base "在拥抱的脸上）。

此外，在将长句子输入BERT时应用的程序包括

RR-*模型：删除超过512的标记（保留句子的前面，删除后面）。
RF-*模型： 删除超过512的标记（留下句子的后面，删除前面）。
MeanPool- *模型： 将超过512个标记（句子）分成200个标记（词），每个标记。分割的200个令牌中的每一个都被输入到BERT，通过这样做从BERT得到的输出的平均值就是方差表示。
MaxPool-*Model： 将超过512个标记（句子）分割成每个200个标记（词）。分割的200个令牌中的每一个都被输入到BERT，通过这样做从BERT得到的最大输出是分布式表示。

此外，作为与 "长句的一般BERT/RoBERTa+方法 "的比较，还训练和评估了一个模型，该模型由于与这些模型不同的注意机制，能够处理比512更长的句子。

BigBird：一个基于BERT的模型，通过使用各种注意力，如随机注意力、全局注意力、窗口注意力等，可以处理超过512个标点。对通用文本进行预训练，如CommonCrawl新闻。
LongFormer：一个基于BERT的模型，通过使用各种注意力，如滑动窗口注意力、扩张的滑动注意力、全局注意力等，可以处理超过512个标记。用通用文本如BookCorpus和英语维基百科进行预训练。

上述预训练的模型和超过512个标记的法律被应用于法律文件，并比较其准确性。现在是时候看一下结果了。

BERT的法律文件(实验结果)

违反欧洲人权公约的数据集

针对《欧洲人权公约》侵权数据集的研究和评估结果如下

这些结果将在以下三个方面进行比较

普通BERT和RoBERTa模型之间的比较
将一般BERT和RoBERTa模型应用于较长文本的方法之间的比较。
普通BERT和RoBERTa模型与BigBird和LongFormer的比较。

首先，我们讨论 " 普通BERT和RoBERTa模型之间的比较"。

在BERT、ECHR-Legal-BERT、Harvard-Law-BERT和RoBERTa这四个BERT模型中，F1分数最高的是ECHR-Legal-BERT，这是一个由包括ECHR数据集在内的法律文件预先训练的BERT。它是。

这意味着，在与法律文件分类任务高度相关的文本上预训练的BERTs往往比在一般文本上预训练的BERT/RoBERTa产生更高的准确性。

然而，另一方面，存在着这样的结果：在通用文本上预先训练的RoBERTa取得了比Harvard-Law-BERT更高的准确性。由此可以说，虽然用具有法律知识的文本进行预训练有一定的效果，但在有些情况下，由于模型的结构所带来的准确性的提高还不足以超越准确性的提高。

下一节是关于 "将一般BERT和RoBERTa模型应用于较长文本的方法之间的比较"。

比较了四种方法--RR-*模型、RF-*模型、MeanPool-*模型和MaxPool-*模型，MaxPool-*模型的F1得分最高。

最后，"一般BERT和RoBERTa模型与BigBird和LongFormer的比较"。结果显示，与 "一般BERT和RoBERTa模型+将一般BERT和RoBERTa模型应用于长文本的方法 "相比，BigBird和LongFormer记录的F值非常高。因此，我们可以再次确认，BigBird和LongFormer是处理长文件的非常有效的方法。

这些是对《欧洲人权公约》侵权数据集的实验结果。

推翻任务数据集

让我们来看看推翻任务数据集的训练和评估结果。如前所述，与《欧洲人权公约》侵权数据集不同，推翻任务数据集不包含超过512字的句子。因此，4.3中介绍的将BERT应用于较长句子的方法没有应用。结果如下。

该表显示了每个模型的10部分交叉验证的平均F1分数的结果。结果显示，在法律相关文本上预先训练的模型Harvard-Law-BERT和ECHR-Legal-BERT产生了最高的准确性。

另一方面，像LongFormer和BigBird这样的模型，在《欧洲人权公约》侵权数据集中有很高的准确率，但其F1分数比其他模型低。这被认为是由于LongFormer和BigBird是专门研究长句的模型，它们处理长句的注意方法，如全局注意和随机注意，有负面作用。

这些是推翻任务数据集的实验结果。

考虑

在这项研究中，在两个数据集上进行了法律文件分类任务的实验。根据结果，本章讨论了两个特别的要点

在对法律文件进行分类时，对领域知识文本的先前学习是否有效？
在法律文件的分类中，如何将较长的文本应用于基于BERT的模型？

首先，关于第一点。关于这一点，它被认为是有效的。结果表显示，在使用一般BERT/RoBERTa的模型中，《欧洲人权公约》侵权数据集和推翻任务数据集（ECHR-Legal-BERT, Harvard-Law-BERT）被发现产生最高的准确性（不包括BigBird和LongFormer）。

因此可以说，用领域知识文本进行预研究对法律文件的分类是有效的。然而，可能无法收集足够数量的 "包含领域知识的文本数据 "来预先训练BERT。在这种情况下，使用在通用文本数据上预先训练的模型是一个很好的选择。

第二，解决第二点。在这方面，对于超过512个单词的长句子，LongFormer和BigBird等模型被认为是有效的。本研究中测试的模型和方法是。