ランダムラベルを利用することでテキスト分類が改善する！

natural language processing 2021年07月27日

3つの要点
✔️ 予測手順において余分な計算コストをかけることなく性能を向上
✔️ ラベルスムージング法に対するLabel Confusion Model(LCM)の優位性も検証
✔️ LCMは混乱したデータセットやノイズの多いデータセットに特に有効であり、ラベル平滑化法（LS）よりもかなりの程度優れていることが実証

Label Confusion Learning to Enhance Text Classification Models
written by Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu
(Submitted on 9 Dec 2020)
Comments: Accepted by AAAI 2021.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。

はじめに

テキストの分類は、自然言語処理における基本的なタスクの一つであり、ニュースフィルタリングやスパム検出など、幅広い応用が可能です。テキストの分類は、特に深層学習ベースの手法が適用され、早い段階で多くの成功を収めています。数多くの深層学習モデルがテキスト分類問題で成功を収めていますが、それらはすべてテキスト表現のための深層学習モデル、ラベル分布を予測する分類器、予測された確率分布とワンショットラベルベクトルの間のクロスエントロピー損失という同じ学習パラダイムです。しかし、この学習パラダイムには、少なくとも2つの問題が存在します。

一般的なテキスト分類タスクにおいて、ワンショットラベルは、すべてのカテゴリが互いに独立であるという仮定に基づいています。しかし実際には、ラベルは完全には独立していないことが多く、インスタンスは複数のラベルに関連していることが一般的です。その結果、真のラベルを単にワンショットで表現するだけでは、インスタンスとラベルの関係を考慮することができず、深層学習モデルの学習能力を制限することになります。
深層学習モデルは、大規模なアノテーションデータに大きく依存します。ラベリングエラーを伴うノイズデータは分類性能を低下させるが、人間がアノテーションを行ったデータセットでは避けられないものです。ワンショットラベルを用いた学習は、誤ったカテゴリーに完全に割り当てられるため、ラベルミスのあるサンプルには脆弱になります。

簡単に言えば、現在の学習パラダイムの限界はモデルがいくつかのラベルを区別するのが難しいという予測の混乱につながっています。これをlabel confusion problem(LCP)と言います。この問題の解決法として一般的なlabel smoothing(LS)法は、ワンショットのベクトルラベリングの非効率性を改善するために提案されていますが、ラベル間の現実的な関係を捉えることができず、問題解決には十分ではありません。

そこで今回の研究では、現在の深層学習テキスト分類モデルの強化コンポーネントとして、新しいLabel Confusion Model(LCM)を提案しています。

復習(不要な人は提案手法まで飛ばして大丈夫です)

深層学習によるテキスト分類

深層学習のテキスト分類は、大きく分けて2つのグループに分類されます。

一つは単語埋め込みに焦点を当てた研究(2014年代)
より良いテキスト表現を学習することができる深層学習構造研究
代表的な深層構造としては、LSTMやRNNやBERTのような言語モデルです。テキスト分類がここまで精度良く行えるようになったのは、テキストから高度な意味表現を学習できる構造研究のおかげです。そして、これは手作業で作られた特徴よりもはるかに良好な結果をもたらします。

label confusion problemへの従来手法

label smoothing

label smoothing(LP)は、モデルが学習例を自信を持って予測しすぎないようにする正則化技術として、画像分類タスクで初めて提案されました。LSは、ハードなワンショットではなく、これらのターゲットを一様なノイズ分布で加重混合したもので損失を計算することで、モデルの精度を向上させます。とはいえ、単純にノイズを加えて得られるものなので、真のラベル分布を反映することはできません。真のラベル分布は、インスタンスと各ラベルとの間の意味的な関係を明らかにするもので、類似ラベルは分布の中で同じような度合いを持つはずである。詳しく知りたい方はこちら(ラベルスムージングに隠された真実！)

Label Embedding

Label Embeddingは、分類タスクにおいてラベルのエンベッディングを学習するです。ラベルを意味的なベクトルに変換することで、分類問題をベクトルマッチングタスクに置き換えて、解くことができます。そしてAttentionを用いて、単語とラベル埋め込みを共同で学習させることで、ラベル間の共同関係を捉えるマルチラベル分類のためのモデルとしています。

このLabel Embeddingの考え方は今回の提案手法でも用いられていますので、ここは軽く頭の片隅に入れておいてください。

Label Distribution Learning

Label Distribution Learning(LDL)は、ラベルの全体分布が重要なタスクにおける新しい機械学習パラダイムになります。ラベル分布は、ある数のラベルをカバーし、各ラベルがインスタンスを説明する度合いを表します。LDLは、ラベルの分布が重要である問題のために提案され、さらにそのタスク用のアルゴリズムも出ています。しかし、20NGやMNISTなどの多くの既存の分類タスクでは、各サンプルに一意のラベルしか付与されていないので、真のラベル分布を得ることが難しい。このような場合は、LDLが適用できません。

提案手法

提案手法の概要図を下記に示します。

具体的に、提案手法のフレームワークは、左に示すBasic Predictorと右に示すLabel Confusion Model(LCM)の2つの部分から構成されています。

Basic Predictor

この部分は、RNNs、CNNs、BERTなどの異なるエンコーダーを用いて入力を処理し、文の意味表現を取得し、最後にSoftmaxでデータを分類します。そして、最後にラベル分布の予測が出力される従来アプローチと変わりません。次のように表現できます。

Label Confusion Model(LCM)

One-hotでラベルを直接表現すると、ラベル情報の無駄遣いになります。また、モデルに過剰適合を発生させると考えています。

具体的には、まずMLPやDNNなどのラベルエンコーダを用いて、入力ラベルを符号化し、ラベル表現行列を取得します。次のsimulated label distribution(類似度ラベル計算モジュール)では、類似層とSLD計算層で構成されています。類似性層は、ラベル表現と現在のインスタンス表現を入力とし、それらの類似性をドット積で計算した後にソフトマックス活性化によるニューラルネットを適用して、label confusion distribution(ラベル混乱分布)を取得します。label confusion distributionは、インスタンスとラベルの間の類似性を計算することで、ラベル間の依存性を獲得することができます。これにより、label confusion distributionはインスタンスに依存した動的な分布となり、ラベル間の類似性のみを考慮した分布や、label smoothingのように単純に一様なノイズ分布よりも優れています。

最後に、オリジナルのワンショット・ベクトルを制御パラメータαでLCDに追加し、ソフトマックス関数で正規化して、模擬ラベル分布SLDを生成します。このプロセスは、次のような形で表現できます。

ここで、従来手法モデルが予測したラベルSLD y (s) の確率分布であり、第2段階で得られた模擬ラベル分布y (p) も共に確率分布であることがわかります。その差を測定するために損失関数として Kullback-Leibler divergence (KL-divergence) を用います。下記のような形になります。

LCMを用いた学習は、モデルが適合させようとする実際のターゲットは深層モデルが学習した文書の意味表現やラベルに応じて動的に変化します。学習されたラベル分布のシミュレーションは、特に混乱しやすいサンプルに対して、異なるラベルを持つインスタンスをより適切に表現するのに役立ちます。またSLDは、ノイズの多いデータに直面した際にも、誤ったラベルの確率が類似したラベル（多くの場合、正しいラベルを含む）に割り当てられるため、モデルは誤ったラベルのデータからも有用な情報を学習することができます。これで全体的な技術的詳細は説明が完了です。このように本論文では、ラベルの分布とラベル間の関係を注意深くモデル化し、入力を考慮しながらラベル間の依存関係を分析することで、入力を考慮した動的なラベルエンコーディングを可能にし、モデルがラベルデータを最大限に活用できるようにしています。

実験設定

データセット

提案した手法の有効性を評価するために、3つの英語データセットと2つの中国語データセットを含む5つのベンチマークデータセットで評価されました。

20NG
英語のニュースデータセットであり、20の異なるカテゴリに均等に分類された18846の文書を含む。
AG's Newsデータセット
127600サンプル、4クラスを含む。実験では50000サンプルのサブセットを選択しています。
DBPediaデータセット
これはオントロジー分類のデータセットで、630000個のサンプルで14のクラスに分類されています。50000個のサンプルをランダムに選んで実験データセットとしています。
FDCNewsデータセット
20のクラスに分類された9833の中国のニュースデータセットです。
THUCNewsデータセット
清華大学が収集した中国のニュース分類データセットです。このデータセットから、13のニュースカテゴリに均等に分けられた39000のニュースを含むサブセットを構築し、使用されています。

モデル

Label Confusion Model(LCM)は、現在主流のモデルと統合することで使用できます。そこで、テキスト分類タスクで広く使用されている一般的なモデル構造のみを使用しています。実際にはLSTM・CNN・BERTの3つを使用します。モデルや各種細かいパラメータ等は原著をご確認ください。

実験結果

実験セクションでは、次のようないくつかの実験を行っています。具体的な結果は以下の表のようになります。表はLCMベースのテスト性能と基本構造のみのテスト性能との比較を示しています。

この結果からLCM ベースの分類モデルは、LSTM-rand・CNN-rand・BERT 構造を使用したときにすべてのデータセットでベースラインを上回ることがわかります。しかしLCMベースのCNN-preモデルでは、FDCNewsと20NGデータセットで軽く悪化しています。広く使われている3つの基本モデルを用いた5つのデータセットでの全体的な結果は、LCMがテキスト分類モデルの性能を向上させる能力を持っていることを示しています。また、LCM ベースのモデルは標準偏差が低くなります。これはデータセットの分割に対する頑健性を反映していることと考えられます。20NG データセットのベースラインLSTM-randに対してLCMが最も大きな改善をもたらし、テスト性能が4.20%向上しました。同じデータセットのCNN-randに対しても、1.04%の向上が見られ、明らかに性能が向上しています。

20NGデータセットには20個のカテゴリがあります。カテゴリが多いほど、同じグループ内のラベルはモデルにとって区別がつきにくいのは当然のことです。さらに、20NGデータセットに含まれる20個のラベルについて、学習したラベル表現を可視化したものが下図になります。

ラベル表現はLCMのエンベッディング層から抽出されたもので、図aは、ラベル表現のコサイン類似度行列を示しており、対角線上の要素は、あるラベルが他のラベルとどのように類似しているかを示しています。図bはt-SNEを用いて、高次元表現を2Dマップ上に可視化しています。図bに示すように、混同されやすいラベル、特に同じグループのラベルは、類似した表現を持つ傾向があることがわかります。ラベルの表現は最初はすべてランダムに初期化されているので、LCMはラベル間の混乱を反映した非常に意味のある表現を学習する能力があることがわかります。

LCM を用いた分類モデルが通常より良いテスト性能を得ることができる理由としては、いくつかの側面に分けて考えることができます。

LCMは学習時に模擬ラベル分布SLDを学習し、入力文書とラベルの意味的な類似性を考慮することで、ラベル間の複雑な関係を把握ができる。これが単純なワンショットベクトルで真のラベルを表現するよりも優れていたからではないか
データセットの中には、カテゴリ数が多かったり、ラベルが非常に似ていたりと、誤ったラベルが存在することがあります。このような場合、ワンショットのラベル表現を用いた学習では、これらのミスラベルデータの影響を強く受ける傾向にある。しかし、SLDを用いることで、誤ったラベルのインデックスが崩れ、類似したラベルに割り当てられます。そのため、誤ったラベルのミスリードは、比較的軽微になったのではないか
誤ラベルとは別に、与えられたラベルに類似性がある場合(例えば、"computer"と"electronics"は、意味的に類似したトピックであり、内容的にも多くのキーワードを共有している、情報の様々な側面を伝えるラベル分布でテキストサンプルをラベル付けすることは、自然かつ合理的であったからではないか

今回は著者がメインで主張している部分のみ実験結果を示しましたが、他にも"αの効果とLCMの早期停止について"と"データセットの混同度の影響"と"ノイズの多いデータセットでの実験とLabel Smoothingとの比較"と"LCMの画像への応用"と4つの実験を行っていますが、それぞれでもLCMでの有効性が示されています(具体的には原著をご確認ください)。

まとめ

現在のテキスト分類モデルの性能を向上させるための拡張コンポーネントとして、Label Confusion Model (LCM)を提案しています。LCMは、インスタンスとラベルの間の関係や、ラベル間の依存関係を捉えることができ、5 つのベンチマークデータセットを用いた実験により、LCMはLSTM・CNN・BERTなどの一般的な深層学習モデルを強化できることがわかりました。

本手法はモデルにとらわれないため、異なるモデルの有効性をさらに高めることができ、柔軟な使い方が可能な点が大きな利点な気がします。最終的には、ラベルのより包括的なモデリングをより十分に活用することで、より少ないコストでより良い結果を得ることができ、非常に興味深い論文です。

この記事に関するカテゴリー

natural language processing

運営: AI-SCHOLARは最新のAIに関する論文を分かりやすく紹介するAI論文紹介メディアです。日本の科学力の低下が叫ばれ政府による研究予算の抑制が続く中、 AIが担う役割はその技術革新にとどまりません。 AIの技術やその応用あるいはそれを支える基礎科学の文脈などを世に伝えることは重要なアウトリーチであり、科学に対する社会の理解や印象を大きく左右しうるものです。 AI-SCHOLARは、AIに対する一般の方々と専門家の間に存在する理解の乖離を少しでもなくし、一般社会にAIが溶け込んでいく姿の一助を担うべく作成されています。それに加え、これまで皆様が築き上げてきた学習や研究の経験がメディアとして具現化され社会に表現されることのお手伝いができればと考えています。先端的で難解な事柄を難しい言葉のまま説明することは誰にでもできますが、AI-SCHOLARはメディアとして情報を伝える上で、語彙やデザインを駆使して「読みやすさ」「わかりやすさ」を追求しています。