学習なしでモデルのアーキテクチャの性能を評価! NASWOTの紹介

NAS 2022年06月02日

3つの要点
✔️ ニューラルネットワークの構造探索（NAS)には計算が時間がかかるため、高速化する必要がある
✔️ ミニバッチに対するネットワーク内のReLUの活性化具合をネットワークの性能とするスコアリング手法を提案
✔️ 学習なしにニューラルネットワークの評価ができる

Neural Architecture Search without Training
written by Joseph Mellor, Jack Turner, Amos Storkey, Elliot J. Crowley
(Submitted on 8 Jun 2020 (v1), last revised 11 Jun 2021 (this version, v3))
Comments: ICML 2021
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

研究概要

本研究では、ニューラルネットワークの構造探索(NAS)の高速化を行いました。NASでは、探索の過程で行われるモデルの性能評価においてそのモデルを学習させる必要があり、その時間がボトルネックとなっていました。本研究では、ネットワーク内のReLUに着目し、学習させない状態でデータセットのミニバッチに対してどのようにReLUが活性化しているかをモデルのスコアとします。このようなスコアリングを行うことで、学習をさせずにネットワークの評価を行うことができ、非常に高速な探索を行うことができるようになりました。

研究背景

NASとは

NAS(Neural Architecture Search)とは、ニューラルネットワークの構造を自動で探索する手法です。有名なものに、Zoph&Le(2017)(https://arxiv.org/abs/1611.01578)があります。この手法では、候補となるネットワークをRNNを用いたジェネレータで生成し、実際に学習させてそのアーキテクチャの評価を行います。その際の評価値に基づいて次の候補ネットワークを強化学習によって探索します。この手法はニューラルネットワークのアーキテクチャを自動的に探索することができる画期的な手法ですが、候補のアーキテクチャの評価を実際に学習させて行うため非常に計算コストが重く、相当な計算機資源を必要とする手法でした。

学習不要な、アーキテクチャのスコアリング

NASでは、候補のアーキテクチャのスコアリングが探索のボトルネックとなっているため、その部分を高速化することが求められています。そこで、本研究では、実際に学習をさせずに候補のアーキテクチャのスコアリングを行う方法を提案しました。

著者らは、データセットに対するアーキテクチャの性能において、一つの仮説を立てました。それは、入力するデータの違いをよく反映しているアーキテクチャほど、アーキテクチャの性能が高いはずだ、というものです。これは、入力データが異なっていてもモデルが同じような出力をしている場合、その異なる入力データに対する違いを学習しにくく、良い結果が生まれにくいだろうという考えから来ています。この仮説を手法に反映するため、著者らはモデル内のReLUの活性化の有無に着目しました。

データをモデルに入力したときに、モデル内の各ReLUが活性化したかどうかを、活性化した場合は１、そうでない場合は０のように二値で表します。この値を各ReLUに対して調べて並べると、一つのデータをモデルに入力したときに、モデル内にあるReLUの数の長さのベクトルが得られます。このようにして得られたベクトルが、そのデータにおけるモデルの振る舞いであると考えます。各データに対してこのベクトルを比較し、入力データに対する違いを反映しているかどうかを調べます。

では、ここからは具体的にどのようにするのかを説明していきたいと思います。データiに対して、モデルのReLUの活性化の有無を並べたベクトルciを考えます。ここでいうReLUの活性化の有無とは、ReLUの出力が0以下なら不活性、それ以外なら活性として、二値として考えます。この時、このベクトルciはバイナリコード列となります。このベクトルciは、データiに対するこのモデルの活性化度合いを表すことになります。データセットの中からランダムにＮ個データのミニバッチを取り出し、ミニバッチ内のすべてのデータに対してこのベクトルcを計算します。これにより、ベクトルc1からcNまでバイナリコード列が求められます。著者らの仮説では、入力データによるモデルの異なる振る舞い度合がスコアとなるため、これらのバイナリコード列の差を定量化する必要があります。ベクトル同士の差を定量化するにあたって、著者らはハミング距離を用いました。各データすべての組み合わせに対してハミング距離を求め、それらを並べた行列KHを考えます。

このKHは行列であるため、スコアとして扱うには不便です。これをスカラー値にするため、KHの行列式を求め、対数スケールに変換します。

このsが、このモデルに対するスコアとなります。ここからは、このスコアリング方法が正しく機能するかどうか、検証を行っていきます。

スコアリング手法の検証

KHの妥当性

二つのデータセット(NAS-Bench-201, NDS-DARTS)に対して、複数アーキテクチャのKHを計算します。KHの各要素を正規化したのち、その結果を図示すると下の図のようになりました。

一番上の行は、そのモデルを学習させた時の最終的な精度を表しています。この図を見ると、最終的に高い精度を達成するアーキテクチャと、そうでないアーキテクチャに対してKHは大きな相関を持つことが分かります。低い精度になるものは濃い色（値が０に近い）が多いですが、高い精度になるものは白い色（値が1に近い）が多いです。これは、学習前のモデルでの入力データに対する活性化度合いの違いが、最終的な精度に大きく関係することを示しています。

スコアリングの妥当性

各データセットに対して、提案手法のスコアリングによるスコアと、そのアーキテクチャの最終的な検証精度の関係を示したものが下の図になります。

この図は、横軸がそのモデルの検証精度、縦軸がそのモデルのスコアを表しています。この図を見ると、いずれのデータセットにおいても、高いスコアを持つアーキテクチャほど、高い検証精度を達成しやすいことが分かります。このことから、提案手法のスコアリングが妥当であることが確認できます。また、ミニバッチで選ばれるデータの差や、モデルのパラメータの初期値、ミニバッチのサイズによってどの程度スコアが変動するかを検証したものが下の図になります。