「気まぐれな単語分割(サブワード正則化)」で低頻度語に頑健な機械翻訳を目指すBPE-Dropoutとは

「気まぐれな単語分割(サブワード正則化)」で低頻度語に頑健な機械翻訳を目指すBPE-Dropoutとは

3つの要点
✔️ 単語分割を気まぐれに決める「サブワード正則化」の新たな手法を提案
✔️ 一般的なサブワード分割に比べ、低頻度の学習が効率的に行われていることを確認

✔️ 従来手法に比べてシンプルな手法でありながら,機械翻訳タスクで性能の向上を確認

BPE-Dropout: Simple and Effective Subword Regularization
written by Ivan ProvilkovDmitrii EmelianenkoElena Voita
(Submitted on 29 Oct 2019 (v1), last revised 1 May 2020 (this version, v2))

Comments: Published by ACL 2020. 
Subjects: Computation and Language (cs.CL)

Code

背景

日本語や英語といった自然言語を機械で処理するとき、自然文を単語などの細かい単位に分割することが一般的です。この処理は「単語分割」や「サブワード分割」と呼ばれ、特に日本語の自然言語処理では形態素解析の一部として単語分割処理を行う方法が広く知られています。例えばMeCabなどの形態素解析器を用いて日本語の文を単語に分割するといった処理は、自然言語処理に触れたことがある方であれば誰しもが経験している処理かと思います。

自然言語処理の性能は、入力となる文をどのように分割するかによって大きく変わります。例えば「形態素解析」という入力は「形態/素/解析」「形態素/解析」「形/態/素/解析」などの分割パターンがあり得ます。近年、モデルの学習時に様々な分割パターンを用いることで性能が向上することが示されています。特に学習エポックごとに分割のパターンを変えてモデルを学習することを「サブワード正則化」と呼びます。

サブワード正則化はSentnecePieceという手法が有名です。今回の記事では、SentencePieceに続く新たなサブワード正則化の手法についての論文をご紹介します。この手法はシンプルで分かりやすい手法でありながら、性能向上が得られることで注目を集めています。なお、本論文は自然言語処理のトップカンファレンスであるACL2020に採択されています。

 

この記事をシェアする