モデルの特徴に現れたブロック構造とは

深層学習 2021年08月23日

3つの要点
✔️ 深層ニューラルネットワークの幅と深さについて検討
✔️ 特徴の中にブロック構造を発見
✔️ ブロック構造が多くの要因と関連することを示唆

Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural Network Representations Vary with Width and Depth
written by Thao Nguyen, Maithra Raghu, Simon Kornblith
(Submitted on 29 Oct 2020 (v1), last revised 10 Apr 2021 (this version, v2))
Comments: Accepted by ICLR 2021.
Subjects: Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。

はじめに

深層ニューラルネットワークは、その幅および深さをスケーリングするという単純なアプローチで精度改善が起きることが多いです。そのためこのアプローチは基本的なものとなっていますが、深さと幅を変化させることがどんな特性の変化をもたらし、モデルにどのような影響を与えるかについての理解は限られています。特に、新しいネットワークアーキテクチャの設計と学習に費やされる計算リソースが継続的に増加している中で、この基本的な疑問を理解することは非常に重要です。すなわち、深さや幅は、学習される表現にどのような影響を与えるのかということです。

今回の論文の貢献は以下になります。

ミニバッチを用いたWideニューラルネットワークとdeepニューラルネットワークの隠れた表現の類似性を効率的に測定するために、centered kernel alignment(CKA)に基づく手法を開発。
この手法をさまざまなネットワークアーキテクチャに適用し、Wideモデルやdeepモデルの表現が特徴的な構造を示すことを発見(これをブロック構造と呼ぶ)。さらに、ブロック構造が異なる学習の間でどのように変化するかを調べたところ、ブロック構造とモデルのオーバーパラメトリック化との間に関連性があることが判明。
さらに分析を進めると、ブロック構造は、表現の分散の大部分を説明する単一の主成分を持つ隠れた表現に対応しており、この主成分は対応する層に保存され、伝搬されることがわかった。また、ブロック構造を持つ隠れた層は、性能への影響を最小限に抑えて刈り込むことができることを示した。- ブロック構造を持たないモデルでは、対応する層で表現の類似性が見られるが、ブロック構造の表現は各モデルに固有のものであることがわかった。
最後に、深さや幅の違いがモデルの出力にどのような影響を与えるかを調べました。Wideモデルとdeepモデルでは、個々に異なる誤りを発生させることがわかりました。

実験設定

実験設定は標準的な画像分類データセットCIFAR-10・CIFAR-100・ImageNetで学習したResNetを使用し、各ステージでチャンネル数とレイヤー数をそれぞれ増やすことで、ネットワークの幅と深さを調整します。これらを変えながら、特徴を分析していきます。

ミニバッチCKAを用いた表現上の類似性測定

ニューラルネットワークの隠れ表現の分析が難しい理由としては、

サイズが大きいこと
層内の重要な特徴が複数のニューロンに依存している可能性がある分散した性質を持っていること
異なる層のニューロン間のアラインメントがないこと

いくつかの理由で分析することが困難です。

しかしCentered kernel alignment (CKA)は、これらの課題に対処し、活性化行列のペア間の類似性を計算することで、ニューラルネットワークの表現を定量的に研究する堅牢な方法を提供しています。具体的には、Kornblithらが以前にこの目的のために検証した線形CKAを使用し、ミニバッチを使用して効率的に推定できるように適応しています。

CKAは、2つの層から表現を入力として受け取り、0(＝類似していない)と1(＝類似している)の間の類似スコアを出力します。下の図が物凄くわかりやすいです。

引用 Google AI blog, Do Wide and Deep Networks Learn the Same Things?

まず、モデルのアーキテクチャの深さや幅が、内部の表現構造にどのように影響するかを調べることから始めます。異なるアーキテクチャの異なる隠れた層の表現は、お互いにどのように似ているのか(または似ていないのか)？

結果

ブロック構造

結論からいくと、図の右にいくほど(幅と深さが大きくなる)、ブロック構造が出現しています。ブロック構造は、非常に類似した特徴表現を持つ連続した層の大規模なセットの出現です。これは、ヒートマップで黄色の正方形で現れます。

CIFAR-10上で深さ(上段)と幅(下段)の異なるResNetを学習した結果を示しています。同じモデル内のすべての層のペアの表現類似度を計算しています。もちろん同一モデルなので、対角線上に類似度が高いラインがわかります。また残差接続の表現は予想通り、スキップの影響で格子状に類似度が低くなっています。さらにResNetブロック内の表現よりも残差接続後(後半の層)の表現の方が他の残差接続後の表現と類似していることがわかります。残差接続のないモデルでも同様の傾向を示します。(原著の付録図C.1)

ブロック構造とモデルのオーバーパラメータ

ブロック構造は、モデルの深さや幅が大きくなるにつれて現れることがわかった。次に、ブロック構造は、モデルの絶対的な大きさに関係しているのか、それとも、学習データの大きさに対するモデルの大きさに関係しているのかを調べます。

一般的にモデルは、学習セットに含まれるサンプル数よりも多くのパラメータを持っています。すなわち、学習データのサンプル数の方が圧倒的に少ないことが多いです。しかし、このようなオーバーパラメータ状態でも、ホールドアウトされたデータで高いパフォーマンスを達成することが報告こされています。

ネットワークの幅を変化させた場合とデータセットの関係を下図に示します。(ネットワークの深さを変化させた場合は、原著付録図D.2)

学習データ量が減少することで(列方向)、幅の狭い(左下)ネットワークではブロック構造が出現していることがわかります。これらの結果から、内部表現におけるブロック構造は、学習データセットに比べて大きくオーバーパラメータ化されたモデルで生じることになります。

ブロック構造を探る

ブロック構造のさらなる考察のための追加実験を行なっています。ブロック構造をキーワードに精度との関係やモデル間での表現比較やモデルのエラー分析などかなり面白い内容になっています。全てを取り上げることはできないので、その中でも特に興味深い結果を導いた精度との関係についてのみ紹介いたします。他の結果が気になる方は必ず、原著を確認してください。追加実験には線形プローブを用いた追加実験（Alain & Bengio, 2016）を行い、ブロック構造のさらなる洞察を与えています。

ブロック構造と精度

ブロック構造が表現を保存しているというというところまではわかります。では、これらの保存された表現がネットワーク全体のタスクパフォーマンスにどのような影響を与えるのか、また、ブロック構造をパフォーマンスに最小限の影響を与える方法で崩すことができるのかを調査します。すなわち、ブロック構造と精度の関連を見ていくということです。精度との関連性は気になると思い、紹介します。

下の図では、ネットワークの各層について、層の表現から出力クラスにマッピングする線形プローブを学習しています。下の図のグラフは残差接続前(オレンジ)と残差接続後(青)の各層の線形プローブの精度を表します。ブロック構造を持たないモデルでは、ネットワーク全体で精度が単調に向上していることがわかりますが、ブロック構造を持つモデルでは、線形プローブの精度はブロック構造の内部ではほとんど向上していません。残差結合の前後の層のプローブの精度を比較すると、ブロック構造の中では、残差結合が表現の保存に重要な役割を果たしていることがわかります。

まとめ

今回は深層ニューラルネットワークの幅および深さのスケーリングが、モデルにどのような影響を与えるかについての理解を得ることができました。重要な要素がブロック構造の出現です。このブロック構造を見ることで他にも様々な結果を導いています。今回は省きましたが、ブロック構造をもつモデルは途中で切り離しても、テスト精度にはほとんど影響がないことや異なるシード間で比較すると、精度低下の割合には、存在するブロック構造の大きさと関係があり、ブロック構造がモデル設計における冗長性を示す可能性がある。その構成層の表現の類似性がモデルの圧縮に利用される可能性を示すなど、新しく定義されたブロック構造を今後は分析することで最適なモデルや精度とモデルの関係をもっと明確に理解する機会を与えてくれるかもしれません。

原著では、かなりの分析を行っていますので、興味ある人は必ず原著を見てください。

宣伝

cvpaper.challenge主催でComputer Visionの分野動向調査，国際発展に関して議論を行うシンポジウム(CCC2021)を開催します．
世界で活躍している研究者が良い研究を行うための講演や議論が聴ける貴重な機会が無料なので，みなさん貴重な機会を逃さないように！！

この記事に関するカテゴリー

運営: AI-SCHOLARは最新のAIに関する論文を分かりやすく紹介するAI論文紹介メディアです。日本の科学力の低下が叫ばれ政府による研究予算の抑制が続く中、 AIが担う役割はその技術革新にとどまりません。 AIの技術やその応用あるいはそれを支える基礎科学の文脈などを世に伝えることは重要なアウトリーチであり、科学に対する社会の理解や印象を大きく左右しうるものです。 AI-SCHOLARは、AIに対する一般の方々と専門家の間に存在する理解の乖離を少しでもなくし、一般社会にAIが溶け込んでいく姿の一助を担うべく作成されています。それに加え、これまで皆様が築き上げてきた学習や研究の経験がメディアとして具現化され社会に表現されることのお手伝いができればと考えています。先端的で難解な事柄を難しい言葉のまま説明することは誰にでもできますが、AI-SCHOLARはメディアとして情報を伝える上で、語彙やデザインを駆使して「読みやすさ」「わかりやすさ」を追求しています。