専門知識を持つデータで事前学習することの重要性とは？ ~ 法律文書の分類に対するBERTの応用 ~

natural language processing 2023年04月02日

3つの要点
✔️ 法律文書の分類タスクにBERTを適用.
✔️ 「法律に関する専門知識を含むテキストにより事前学習したモデル」と「汎用的なテキストにより事前学習したモデル」をFine Tuningし、精度を比較.
✔️ BERTの上限である512単語を超える長い法律文書に対して、BERTを適用する手法についても検討

Effectively Leveraging BERT for Legal Document Classification
written by Nut Limsopatham
(Submitted on Nov 2021)
Comments: EMNLP | NLLP

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年の深層学習の発展は文書分類や自動翻訳、対話システムなど自然言語処理(以後、NLP)における様々なタスクの精度向上に貢献しています。NLPの実応用は非常に進んでおり、本論文のテーマである法律分野にも、様々なNLPの応用が考えられています。

NLPコミュニティでも、近年特に注目を集めているのが、2018年にGoogleにより発表されたモデル・BERTです。BERTはラベリングされていない大規模コーパスを用いた事前学習によって、対象となる言語に関する知識を獲得します。

そのようにして作成した事前学習済みモデルを、取り組むタスクのデータセットにより、ファインチューニングすることによって、従来よりも少ないコストで高いパフォーマンスを発揮するモデルを構築することを可能にしました。

一方で、BERTには以下のような課題も存在します。

512単語を超える長いテキストを効果的に処理することができない
事前学習は大規模なテキストデータを処理する必要があるため、コストがかかる

そこで本論文では、BERTによる法律文書の分類タスクを通して、

法律文書のような長いテキストをBERTにより処理する方法
法律のような専門知識を必要とするタスクにおいて、その専門知識を持ったコーパスにより事前学習を行うことの重要性

に関する議論を行います。

具体的には、ECHR Violation Datasetを用いた法違反予測、Overruling Task Datasetを用いた棄却予測という2つのタスクをBERTをベースとした様々なモデルにより学習・評価を行い、それらの結果を比較することによって、議論を行いました。

前提知識

法律分野における自然言語処理技術の応用

既に述べた通り、法律分野では、様々なNLPの応用が考えられており、その具体例としては以下が挙げられます。

法律違反の予測
判決の予測
法情報の抽出
裁判所の見解の生成

そのため、データセットの開発も進んでおり、本研究で用いるECHR DatasetやOverruling Task Datasetもその一例です。データセットとしての法律文書には以下のような特徴があります。

叙事的な文章で記述されている
非構造型データ
専門的な単語を含む

そして、本研究で注目するのは、BERTによる法律文書の分類です。

BERTについて

本研究では、法律文書の分類にBERTを用いています。BERTは双方向トランスフォーマーのエンコーダを複数層重ねた構造をしており、そのモデルを

文章中のマスクされた単語を周囲の単語から予測するMasked language model prediction
2つの文章を与え、2文目が1文目に後続する文章であるかどうかを予測するNext sentence prediction

という2つのタスクにより事前学習することで、言語に関する知識を獲得します。

BERTを応用する際は、Hugging Face などに公開されている大規模なデータセットによる事前学習済みモデルを自身のタスクに対するデータセットでファインチューニング・転移学習を行うというのが一般的です。この事前学習済みBERT + 転移学習という手法は、当時、GLUEやSQuADといった様々なデータセットでSoTAを達成しました。

本研究の法律文書の分類タスクに用いたモデルは、BERT + 分類のための線形変換層という最もシンプルな構造をしています。

BERTによる法律文書分類モデルの概要図

特殊トークン・CLSに対する分散表現を、線形変換することによって、最終的な出力(分類結果)を得ています。

法律分野におけるBERTの応用

既に様々な研究で法律に関連するタスクでBERTが活用されています。

Zhengらは、法律文書による事前学習を行ったBERTモデルは、汎用的なテキストによる事前学習を行ったBERTと比較して、より高いパフォーマンスを上げることを発見しました。

CahlkidisはBERTは512単語以上の文章から構成されるデータセットを用いて、法律違反の予測を行った時、純粋なBERTでは良い精度を得られなかったことを発表しています。しかし、Hierarchical BERTを用いることによってその課題を解決しています。

長い文章に対するBERT

純粋なBERTモデルを用いた場合、処理できる文章の単語数の上限は512です。しかし、それを超える長さの文章を処理できるようなBERTをベースとした手法も既に提案されています。

BeltagyやZaheerらはAttention機構の手法を変えることによって、これに対応しました。

Pappagariらは長い文章の分散表現に対して、max poolingやmean poolingを施すことによって、一定以下の長さの分散表現に集約し、BERTに入力することによって対応しました。このようにBERTを長い文章に適用する様々な手法が提案されていますが、この研究では、法律文書の分類にこれらの手法を適用し、どの程度のパフォーマンスを出すことができるか？を検証しました。

BERTによる法律文書の分類 (実験設定)

本章では、研究を通して取り組んだ法律文書の分類タスクの実験設定について解説を行います。

用いたデータセット

・ECHR Violation Dataset (Multi Label)

このデータセットは特定の事件・事例が「ヨーロッパにおける人権および基本的自由の保護のための条約」におけるどの規則に反しているか？を予測するタスクです。ラベルの種類数は40で、データセットの概要は以下の通りです。

ECHR Violation Datasetの概要

テストデータに対して、micro f1-scoreを算出することによって、評価を行いました。

・Overruling Task Dataset

このデータセットは、ある法的な文章が、過去の判決を覆すか、覆さないかを予測するタスクに用いられるデータセットです。タスクとしては2値分類で、データセットの概要は以下の通りです。

Overruling Task Datasetの概要

なお、このタスクに関しては、10分割交差検証を行っています。

ハイパーパラメータ・最適化関数

実験に用いたハイパーパラメータ・最適化関数は以下の通りです。

学習率: 5e-5 & linear learning-rate scheduler
最適化アルゴリズム: AdamW
バッチ数: 16
エポック数: 5

用いたモデル

次に用いたモデルについてです。本研究ではBERTベースの事前学習済みモデルとして以下の4つを用いています。

BERT: BookCorpusやEnglish Wikipediaといった汎用的なテキストで事前学習したBERT(hugging faceの"bert-base-uncased")
ECHR-Legal-BERT: ECHR Datasetを含む法的文書によって、BERT(構造は"bert-base-uncased"と同様)を事前学習
Harvard-Law-BERT: 法的文書であるHarvard Law case corpusよって、BERT(構造は"bert-base-uncased"と同様)を事前学習
RoBERTa: BookCorpusやCommonCrawl Newsといった汎用的なテキストで事前学習したRoBERTa(hugging faceの"roberta-base")

また、長い文章をBERTに入力する際に施した処理としては以下が挙げられます。

RR-* Model: 512 を超えるトークンを除去(文章の前方を残し、後方を除去)
RF-* Model: 512 を超えるトークンを除去(文章の後方を残し、前方を除去)
MeanPool- *Model: 512 を超えるトークン(文章)を 200トークン(単語)ごとに分割。分割したそれぞれの200トークンをBERTに入力し、BERTからそうすることによって得た出力の平均値を分散表現とする
MaxPool-*Model: 512 を超えるトークン(文章)を 200トークン(単語)ごとに分割。分割したそれぞれの200トークンをBERTに入力し、BERTからそうすることによって得た出力の最大値を分散表現とする

さらに、「一般的なBERT・RoBERTa + 長い文章に対する手法」との比較として、それらとは異なるAttention機構により、512よりも長い文章を処理することを可能にしたモデルについても学習・評価を行いました。

BigBird: random attentionやglobal attention,window attentionといった様々なアテンションを用いることによって、512を超えるトークンを処理できるようにしたBERTベースのモデル。BookCorpusやCommonCrawl Newsといった汎用的なテキストで事前学習。
LongFormer: sliding window attentionやdilated sliding attention,global attention,といった様々なアテンションを用いることによって、512を超えるトークンを処理できるようにしたBERTベースのモデル。BookCorpusやEnglish Wikipediaといった汎用的なテキストで事前学習。

以上のような事前学習済みモデル・512を超えるトークンに対する法律を法律文書に適用し、精度の比較を行いました。それではいよいよ結果を見ていきましょう.

BERTによる法律文書 (実験結果)

ECHR Violation Dataset

ECHR Violation Datasetに対する学習・評価の結果は以下の通りです。

この結果を以下の3つの観点で比較していきます。

一般的なBERT・RoBERTaモデル間での比較
長い文章に一般的なBERT・RoBERTaモデルを適用するための手法間での比較
一般的なBERT・RoBERTaモデルとBigBird・LongFormerとの比較。

まず、「一般的なBERT・RoBERTaモデル間での比較」についてです。

BERT,ECHR-Legal-BERT,Harvard-Law-BERT,RoBERTaという4種類のBERTモデル間で最も高いF1スコアを記録したのは、ECHR Datasetを含む法的文書によって事前学習されたBERTであるECHR-Legal-BERTです。

このことから、法律文書の分類タスクに関連性の高い文章で事前学習したBERTは、汎用的なテキストで事前学習されたBERT・RoBERTaよりも、高い精度を出す傾向にあると言えます。

しかし、一方で、汎用的なテキストで事前学習されたRoBERTaの方が、Harvard-Law-BERTよりも高い精度を上げている結果も存在します。そのことから、法律に関する知識を持つテキストで事前学習する効果はあるとはいえ、モデルの構造による精度向上を超越するほどではない場合も存在するということが言えます。

次に、「長い文章に一般的なBERT・RoBERTaモデルを適用するための手法間での比較」についてです。

RR-* Model,RF-* Model,MeanPool- *Model,MaxPool-*Modelという4つの手法で比較をおこない、最も高いF1スコアを記録したのは、MaxPool-*Modelでした。

最後に、「一般的なBERT・RoBERTaモデルとBigBird・LongFormerとの比較」です。結果から、BigBirdとLongFormerは「一般的なBERT・RoBERTaモデル + 長い文章に一般的なBERT・RoBERTaモデルを適用するための手法」と比較して、非常に高いF値を記録していることがわかります。このことから、長い文書を処理する上でBigBirdとLongFormerが非常に有効な手法である、と改めて確認することが可能です。

以上がECHR Violation Datasetに対する実験結果です。

Overruling Task Dataset

Overruling Task Datasetに対する学習・評価結果を見ていきましょう。既に示した通り、Overruling Task DatasetはECHR Violation Datasetとは異なり512単語を超える文章を含みません。そのため、4.3で紹介した、長い文章にBERTを適用するための手法は施しません。結果は以下の通りになります。

表は10分割交差検証によるF1スコアの平均値をそれぞれのモデルに対して算出した結果を示しています。結果から、Harvard-Law-BERTとECHR-Legal-BERTという、法律に関連したテキストで事前学習したモデルが、最も高い精度を出している、ということがわかります。

一方でECHR Violation Datasetでは高い精度を出していたLongFormerやBigBirdといったモデルは、他のモデルと比較して、F1スコアが低いです。これは、LongFormerやBigBirdが長い文章に特化したモデルであり、global attentionやrandomized attentionsといった長い文章を処理するためのアテンションの手法がマイナスに作用しているためだと考えられます。

以上がOverruling Task Datasetに対する実験結果です。

考察

本研究では、2つのデータセットを用いて、法律文書の分類タスクに関する実験を行いました。結果を踏まえて、本章では特に以下の2点について考察を行います。

法律文書の分類において、ドメイン知識を持つテキストで事前学習することは有効であるかどうか？
法律文書の分類において、長い文章をBERTをベースとしたモデルに適用するためにはどうすれば良いのか？

まず、1点目についてです。これに関しては、有効であると考えられます。結果の表を見ると、一般的なBERT・RoBERTaを用いたモデルの中では、ECHR Violation DatasetとOverruling Task Datasetのいずれも法律文書によって事前学習されたモデル(ECHR-Legal-BERT,Harvard-Law-BERT)が最も高い精度を出していることがわかります(BigBirdとLongFormerを除く)。

このことから法律文書の分類において、ドメイン知識を持つテキストで事前学習することは有効であるといって良いでしょう。しかし、BERTを事前学習するほどの十分な量の「ドメイン知識を含むテキストデータ」が収集できない場合もあります。その場合は、汎用的なテキストデータで事前学習したモデルを用いることも良い選択肢の一つであると言えるでしょう。

次に、2点目についてです。これについては512単語を超える長い文章については、LongFormerやBigBirdのようなモデルを用いるのが効果的であると考えられます。今回検証を行ったモデル・手法を