注意機構は本当に解釈として妥当なのだろうか

自然言語処理や画像処理の分野において、注意機構はニューラルネットワークの内部を可視化することができる重要なアーキテクチャであるとされています。今回で紹介する論文は「注意機構は本当にニューラルネットワークの働きを説明しているのか」という疑問に正面から向き合ったというものです。

論文:Attention is not Explanation

Attention is All You Needという機械翻訳に関する有名な論文は、自然言語処理を専門としていなくとも耳にしたことがあるかもしれません。タイトル通り、注意(attention)を用いることで精度の向上や処理の可視化ができるようになると言った主張が含まれる論文です。

自然言語処理や画像処理の分野において、注意機構はニューラルネットワークの内部を可視化することができる重要なアーキテクチャであるとされています。今回取り上げる論文は、特に注意機構の解釈性に焦点を絞り、その信頼性について検証を行っているというものです。

具体的には、「注意機構は本当にニューラルネットワークの働きを説明しているのか」という疑問に正面から向き合い、自然言語処理のタスクにおいて二つの検証を行っています。検証では単語の重要度と注意の重みの関係、意図的に異なる注意を与えたときのニューラルネットワークの挙動について検証を行いました。実験より、注意機構をニューラルネットワーク内部の可視化として用いることは「疑問が残る」と結論付けています。自然言語処理のトップカンファレンスであるNAACL-HLT 2019でも採択されており、ぜひ押さえておきたい論文です。

注意機構によるブラックボックスの可視化

ニューラルネットワークを用いた手法は、自然言語処理や画像処理のタスクにおいて精度の向上に貢献しています。一方で、ニューラルネットワークがブラックボックスであるという問題はたびたび指摘されています。すなわち、「なぜニューラルネットワークを用いると精度が向上するのか」が分かりづらいという問題が存在します。

ニューラルネットワークに注意機構が用いられるようになってからは、注意の度合い(重み)を見ることで、ある程度ニューラルネットワークの内部処理を可視化できると主張されるようになりました。注意機構は様々なタスクにおいて精度の向上に寄与するだけではなく、ブラックボックスの可視化ツールとして一躍注目を浴びています。

例えば弊メディアでは以前、注意機構を用いた文ベクトルの計算手法についてご紹介しました。こちらの論文では、文ベクトルの計算時に注意機構を用いることで、文分類などの主要な自然言語処理タスクにおいて精度の向上が見られたと報告されています。さらに注意の重みを観察することで、ニューラルネットワークの内部処理が部分的に可視化できると主張されています。実際に感情分析における推論では、タスクを解く上で重要となる単語に、強く注意の重みを当てていると確認できます。注意機構を用いた文ベクトルの計算方法は従来手法と何が違うのか

注意機構を用いたニューラルネットワークの可視化は、モデルの性能や働きについて視覚的に訴えることができます。そのため、論文だけではなく機械学習についての説明やプレゼンテーションなどでも、質的な分析として頻繁に用いられています。しかしながら、注意機構がニューラルネットワークの内部処理の説明として妥当なのかという量的な検証は行われてきませんでした。つまり、可視化手法として広く用いられている注意機構の信頼性について、量的に検証した研究はないということです。

この記事をシェアする