機械翻訳における良い語彙とは何か

natural language processing 2023年12月05日

3つの要点
✔️ 「語彙サイズの影響が十分に考慮されていない問題」を解消する手法の紹介。
✔️ 経済学の限界効用に準えたMUVという尺度を用いたVOLTアルゴリズムを提案。
✔️ VOLTはさまざまな環境で高パフォーマンスな語彙を効率的に見つける。

Vocabulary Learning via Optimal Transport for Neural Machine Translation
wrriten by Jingjing Xu, Hao Zhou, Chun Gan, Zaixiang Zheng, Lei Li
(Submitted on 31 Dec 2020)
Comments:Accepted by ACL 2021
Subjects:Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

導入

この論文は、機械翻訳のパフォーマンスに影響を与えるトークンの語彙選択について調査し、最適な語彙を見つける方法を探ることを目的としている。試行訓練なしで最適な語彙を見つけることができるかどうかも検証している。

テキストの語彙構築は、ニューラル機械翻訳（NMT）や他の自然言語処理（NLP）において重要であり、バイトペアエンコーディング（BPE）などのサブワードアプローチが有望な結果をもたらしている。これらのアプローチはデータの圧縮に似ており、学習と予測が容易になる。

現在のアプローチでは、頻度やエントロピーといった基準のみが考慮されており、語彙サイズの影響は適切に考慮されていないことが問題とされている。以前の研究で、特にリソースの制約があるタスクでは、語彙サイズがシステムの下流の性能にも影響を与えることが示されている。しかし、適切な語彙サイズを探索するためには、すべてのサイズに対する試行訓練が必要であり、計算コストが高いため、既存の研究では一般的な設定のみが使用されている。たとえば、30000〜40000の範囲が機械翻訳会議(WMT)の論文で最も一般的なサイズ設定である。

この論文は、全てのサイズに対する試行訓練を行わずに、自動語彙化を実現するためにエントロピーと語彙サイズを同時に考慮する手法を提案している。しかし、この手法の設計には２つの問題がある。

⑴　適切な目的関数を見つけることが困難。語彙サイズが増えるとコーパスのエントロピーは減少し、モデル学習には有利だが、トークン数が多すぎるとトークンの希薄性が生じ、モデル学習に悪影響を与える。

⑵　有限の選択肢から最適解を見つける「離散最適化問題」を解決するのは困難で、指数関数的な探索空間が存在する。

VOLT（Vocabulary Learning via Optimal Transport）　

上記の問題の対処に向けて提案されたのが、VOLT という語彙決定手法である。

このアプローチでは、コーパスのエントロピーと語彙サイズを考慮して、適切な語彙を見つけることができる。特に、経済学の限界効用(MUV)と呼ばれる概念を使用して、語彙のバランスを見つける。MUVは、語彙サイズに対するエントロピーの負の導関数として定義される。

MUVの定義

正式には、MUV はサイズに対するエントロピーの負の微分を表す。簡略化するために、より少ない語彙を利用して実装時の MUV を推定する。特に、MUV は次のように計算される。

ここで、 $v (k)$ や $v (k + m)$ は、それぞれ語彙サイズ $k$ や $k + m$ の時の語彙を表している。また、 $H_{v (k)}$ は語彙 $v (k)$ の際のエントロピーを表している。トークンの長さの影響を避けるために、ここではトークンの平均長でエントロピーを正規化し、最終的なエントロピーは次のように定義される。

p(j)はトークンの相対頻度で、l_vは語彙内のトークンの平均長。

パレート最適性の観点により、より高いMUVが望まれる。図１は、限界効用に関する例を示している。

図１

Eo-En翻訳からさまざまなサイズの BPE 生成語彙をサンプリングし、そのエントロピーとBLEU線を描画する。「星」は限界効用が最大の語彙を表す。限界効用は、コスト(サイズ)の増加による利益の増加 (エントロピーの減少)を評価する。

次に、私たちの目標は、扱いやすい時間計算量で最大限の多様性を持つ語彙を生成することだ。離散最適化問題を解決するために、線形計画法を使用して最適な輸送問題を解く。

このアプローチは、機械翻訳タスクにおいても成功しており、VOLTという手法が広く使用される語彙を上回ることが示されている。また、VOLTは効率的なソリューションであり、高価な計算リソースを必要としない。

語彙化の限界有用性

このセクションでは、語彙のサイズとエントロピーを考慮しながら、適切な語彙測定値を見つける提案がされている。語彙サイズの増加によりエントロピーが減少し、モデル学習に利益をもたらす一方、語彙が多いとパラメータの爆発やトークンの希薄性の問題が発生し、モデル学習に悪影響を及ぼす。

この問題に対処するために、語彙化の限界効用 (MUV) を最適化目標として使用する提案がある。MUVは、コーパスのコストと得られる利益を評価する。MUVが高いほど、より高い便益対費用比が期待される。

暫定的な結果では、MUV が翻訳タスクの 3 分の 2 で下流のパフォーマンスと相関していることが確認されている（図２を参照）。MUVは翻訳タスクのパフォーマンスと相関しており、扱いやすい時間計算量でMUVを最大化することが目標とされている。

図２

X軸は、Spearmanスコアをさまざまなグループに分類する。Y軸は、各グループ内のタスクの数を示す。中央のスピアマンスコアは 0.4。

この論文は、語彙構築を最適化するための離散最適化問題として捉え、最も優れた語彙を見つけることを目指している。

しかしながら、語彙は離散的な性質を持つため、離散最適化は困難である。そのため、論文では固定サイズの語彙から最適な語彙を探索することで、元の問題を単純化することを提案している。

具体的には、MUVは語彙サイズに応じたエントロピーの導関数として定義され、計算を近似するために補助変数を導入している。これにより、語彙サイズ間のMUVを計算するだけで最適な語彙を見つけることができる。

VOLTのアルゴリズム

著者は、MUVを最大化する方法について問題があると指摘している。MUVは語彙のエントロピーの変化量であり、語彙を構築するために何らかの手法を使う必要がある。著者は最適輸送を用いた手法を提案している。

つまり、VOLTは特定の語彙サイズで語彙を構築し、その語彙のエントロピーを計測し、別の語彙サイズでも同様に語彙とエントロピーを計測することでMUVを算出する。

VOLTのアルゴリズムは以下のようになる。

アルゴリズムでは、サブワード分割された学習コーパスの単語を頻度の高い順に並べたものをLとし、学習コーパスの各文字をCとし、語彙サイズをSとしている。最適輸送としてシンクホーンの定理を使用して、VOLTを実行する。

VOLTは、あらかじめ大きな語彙サイズで学習データをサブワード化し、複数の語彙サイズ候補を設定する。それぞれの語彙サイズに対して最適輸送を使用し、その時のエントロピーを計算する。そして、各語彙サイズにおけるエントロピーの変化量を比較し、最もMUVが高くなる語彙サイズを決定する。

実験結果

VOLT のパフォーマンスを評価するために、WMT-14 英語-ドイツ語翻訳、TED 二言語翻訳、TED 多言語翻訳を含む3つのデータセットで実験を実施する。

表1：VOLT による語彙検索と広く使用されている BPE 語彙の比較。
ここでは、語彙サイズは X-En 設定から採用される。

VOLT によって検索された語彙は、サイズが大幅に削減され、より高い BLEUスコア（機械翻訳の精度の評価指標）を達成している。VOLTは、BLEUが高く、サイズが小さい、パフォーマンスの高い語彙を見つけることができる実用的なアプローチであることを示している。　

検索される語彙のサイズは約 110K。VOLTはほとんどのペアでより高い BLEUスコアを達成している。

表2：Ding et al.が推奨する VOLT と BPE-1K による語彙検索の比較。
低リソースのデータセット向け。ここではTED X-Enの対訳を例に挙げる。

この表は、VOLT によって検索された語彙が、BLEU スコアの点でヒューリスティックに検索された語彙と同等であることを示している。

BLEUスコアの観点から、VOLT はヒューリスティックに検索された語彙と同等の優れた語彙を見つけていることがわかる。BPE-1Kは多くの実験に基づいて選択されている。対照的に、VOLTでは評価に１回のトライアルしか必要とせず、最適な語彙を見つけるのにかかる時間はわずか０.５CPU時間と３０GPU時間。　

表 3:多言語翻訳における VOLT と広く使用されている BPE 語彙の比較。

検索される語彙のサイズは約 110K 。ご覧のとおり、VOLT はほとんどのペアでより高い BLEU スコアを達成している。

表 4: VOLT、MUV-Search、および BPE-Search の結果。

VOLT と BPE-Searchを比較すると、GPU で数百時間かかる BPE-Search と比較して、VOLT は単一の CPU で 0.5 時間以内に競合語彙を見つけることができる軽量のソリューションであることを示している。

また、MUV-Search は、MUV が最も高い語彙を最終語彙として選択することにより、MUV と一般的なアプローチを組み合わせた手法である。MUV-Search は下流の完全なトレーニングを必要としないが、それでも語彙の生成と MUV の計算に多くの時間がかかる。その中で、VOLT は最も効率的なアプローチである。

表 5: VOLT と強いベースラインの比較

上のブロックのアプローチと比較して、VOLT ははるかに少ない語彙でほぼ最高のパフォーマンスを達成する。これらの結果は、明確に定義された語彙を使用すると、単純なベースラインで良好な結果が得られることを示している。VOLT は SentencePiece や WordPiece よりも大幅に優れており、BLEU が 1 つ以上向上していることがわかる。

表 6：さまざまなアーキテクチャによる語彙サイズ

VOLT によって検索された語彙が競合 BLEU の Convolutional Seq2Seq でも機能するが、サイズははるかに小さいことを示している。VOLT 検索語彙 (11.6k トークン) を備えたモデルは 1 秒あたり 133 文を処理できるが、BPE-30K (33.6k トークン) を備えたモデルは 1 秒あたり 101 文しか実行できない。

また、VOLT は Softmax の計算を削減するが、GPU での並列計算が最適化されているため、Softmax の実行時間は大幅に増加しないことがわかる。

これら 2 つの語彙は、特に高頻度の単語で非常に重複していることがわかる。下流側でも同様のパフォーマンスを発揮する。したがって、経験的な観点から、VOLT サイズの BPE も良い選択になるだろう。