NASにおけるアーキテクチャ評価手法の比較！

NAS 2022年06月16日

3つの要点
✔️ ニューラルネットワークの構造探索（NAS)において、探索したアーキテクチャを評価するときの手法を比較した論文
✔️ アルゴリズムの実行にかかる時間の制限を何種類も用意し、それぞれでどのアルゴリズムが最も高い性能を示すかを調査
✔️ 最も高い性能を示したアルゴリズムを組み合わせ、さらに高い性能を示す、OMNIという手法を提案

How Powerful are Performance Predictors in Neural Architecture Search?
written by Colin White, Arber Zela, Binxin Ru, Yang Liu, Frank Hutter
(Submitted on 2 Apr 2021 (v1), last revised 27 Oct 2021 (this version, v2))
Comments: NeurIPS 2021
Subjects: Machine Learning (cs.LG); Neural and Evolutionary Computing (cs.NE); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、ニューラルネットワークの構造を自動で探索する手法である、Neural Architecture Search (NAS) が注目を集めています。自動でアーキテクチャを探索できるということで非常に便利なものなのですが、探索には大きな計算コストがかかってしまうため、いかにしてその計算コストを削減するかというところに焦点を当てた、様々な研究がなされています。特に、探索した候補のアーキテクチャを評価する段階がボトルネックとなっているため、その部分の計算量を削減することが求められています。

候補のアーキテクチャを評価する方法は、現在まででたくさんの手法が提案されてきました。それらの手法はいくつかのファミリに分類することができ、それぞれの手法はそのファミリ内での比較にとどまっていました。本研究では、ファミリ内にとどまらず、それらの手法を比較しました。

研究背景

NASとは

NAS(Neural Architecture Search)とは、ニューラルネットワークの構造を自動で探索する手法です。有名なものに、Zoph&Le(2017)(https://arxiv.org/abs/1611.01578)があります。この手法では、候補となるネットワークをRNNを用いたジェネレータで生成し、実際に学習させてそのアーキテクチャの評価を行います。その際の評価値に基づいて次の候補ネットワークを強化学習によって探索します。この手法はニューラルネットワークのアーキテクチャを自動的に探索することができる画期的な手法ですが、候補のアーキテクチャの評価を実際に学習させて行うため非常に計算コストが重く、相当な計算機資源を必要とする手法でした。そのため、これを高速化するためにさまざまな研究がなされています。

そういった研究をまとめると、各手法をいくつかのグループに分類することができます。そのグループは、以下のようなものがあります。

モデルベース手法
学習曲線に基づく手法
ハイブリッド手法
ゼロコスト手法
重み共有手法

モデルベース手法

モデルベースの手法は、モデルの構造を入力し、そのアーキテクチャでの性能を予測する予測器を利用して、探索したアーキテクチャの評価を高速化する手法です。この手法は、性能を予測するためのデータセット（候補アーキテクチャとその時の性能がペアになったもの）が必要になることと、この予測器を用意するための時間が必要であることに注意が必要です。

学習曲線に基づく手法

学習曲線に基づく手法は、探索したアーキテクチャを実際に学習させ、その際の学習曲線の変化を見て、評価を行う手法です。最もわかりやすい代表的な手法は早期終了です。この手法は、モデルベースの手法と違って事前にデータセットや学習時間を必要としませんが、探索したアーキテクチャで毎回学習させる必要があるため、探索したアーキテクチャを評価するための時間が長いという点に注意が必要です。

ハイブリッド手法

モデルベースの手法と学習曲線に基づく手法の両方を合わせた手法。両方を合わせるため、データセットが必要になり、さらに学習時間も必要で、探索したアーキテクチャを評価するための時間も長いというデメリットがありますが、非常に高い精度でアーキテクチャの性能を評価することができる手法です。

ゼロコスト手法

ゼロコスト手法は、事前の学習時間やデータセットを必要とせず、さらに探索したアーキテクチャを評価する時間もほとんどかからない手法です。具体的な手法としてはNASWOTなどがあります。

重み共有手法

対象のタスクで訓練済みの、非常に大きなニューラルネットを用意し、そこから一部を抽出してアーキテクチャを探索する手法です。すでに大きなニューラルネットとして学習済みであるため、抽出されたアーキテクチャを学習するコストが低く、評価が高速です。有名な手法としてOne-shot NASがあります。

本論文では、これらのグループの各手法を共通する指標で比較し、性能を評価しています。

実験

ここからは、これらの各手法を比較した結果を示していきます。

初期化時間とクエリ時間のトレードオフ

実際に各手法を比較していくにあたって、初期化時間とクエリ時間のトレードオフについて理解しておく必要があります。初期化時間とは、アーキテクチャを実際に探索するフェーズの前に、事前に必要な時間のことで、クエリ時間とは、アーキテクチャを実際に探索するフェーズの際に必要な時間のことです。具体的にモデルベースの手法で説明すると、初期化時間は探索したアーキテクチャを評価するための性能予測器を学習させる時間に相当します。またクエリ時間は、探索したアーキテクチャをこの性能予測器で評価するのに必要な時間に相当します。よって、モデルベースの手法においては、初期化時間には非常に大きなコストが必要ですが、クエリ時間は小さいコストで済むことがわかります。一方学習曲線に基づく手法の場合、事前に学習させるフェーズは必要ないため、初期化時間はかかりません。しかし、各アーキテクチャを評価するために毎回そのアーキテクチャを学習させる必要があるため、クエリ時間には非常に大きなコストがかかります。

このように、通常初期化時間とクエリ時間はトレードオフの関係にあります。そのため、探索したいアーキテクチャの候補がたくさんある場合はクエリ時間が小さいアルゴリズムを選択するべきであるし、計算資源をあまり持っていない場合で、手軽に探索したい場合は初期化時間が小さいアルゴリズムを選択する必要があります。このように、利用者のシーンによって選択するべきアルゴリズムは変わります。

実験設定

上述のトレードオフがあるため、今回は初期化時間にかけることができるコストを１１種類、クエリ時間にかけることのできるコストを１４種類用意し、全１５４通りの組み合わせを用意しました。そのそれぞれのコストの組み合わせにおいて、最も高い性能を示すアルゴリズムを検証します。

ここで、アルゴリズムの性能として、順位相関を指標とします。順位相関とは、二つの順位表が与えられたときに、その順位表がどれくらい似ているかを表す指標です。各アルゴリズムで探索された各アーキテクチャの性能評価を行い、順位表にしたものと、実際のそのアーキテクチャの順位表（実際に最後まで学習させて得る）を順位相関で比較し、どれくらい正しくアーキテクチャの性能を評価できたかを検証します。順位相関として具体的には、Kendall tau、ピアソン相関、スピアマン相関を用います。

結果

下の図で、CIFAR-10におけるNAS-Bench-201での、初期化時間とクエリ時間とその時のKendallスコアの関係を各スコアごとに比較しています。

この図を見ると、１５４通りのコスト設定のうち、一つでも各手法の中で最高のスコアを達成することのできたアルゴリズムは７種類しかないことがわかります。これは下の図でより明確に確認することができます。

この図は、各データセットにおいて、初期化時間とクエリ時間の組み合わせにおいて最も高いスコアを示したアルゴリズムで色分けしています。この図を見ながら、各時間予算においてどの手法が優れているのかを順番に見ていきたいと思います。

まず低初期化時間、低クエリ時間のときを見てみます。このとき、SynFlow（灰色）やヤコビアン共分散（青色）が比較的高い性能を示していることがわかります。しかし、これらのゼロコストの手法は、DARTSなどの大きな探索空間を持つデータセットにおいてはうまくいっていないことが右下の図からわかります。

次に、低初期化時間、高クエリ時間のときを見てみます。この領域ではSoTL-E（赤色）が一貫して高い性能を示しています。

高初期化時間、低クエリ時間の時は、GCN（紫色）とSemiNAS（黒色）が良い性能を示しました。しかし、より初期化時間予算が大きい場合はブースティング木（茶色）が高い性能を示しています。モデルベースの手法においては、初期化時間は性能予測器の学習時間に相当するため、この結果は性能データが十分にある場合にうまく動作することを示しています。これに関して最も興味深いことは、NAS-bench-101/201において、SynFlowとヤコビアン共分散はそれぞれ３秒の計算時間で３０時間の初期化時間を与えられたモデルベースの手法よりも高い性能を示したことです。これは、NAS-bench-101/201が、モデルベースの手法が要求するだけのデータ数ではないということを示していると考えられます。

これらの結果から得られる事実として、高い性能を示すアルゴリズムはあるが、それぞれが各初期化時間とクエリ時間に特化したもので、汎用的に高い性能を示すアルゴリズムはないということがわかります。ここで著者らは、それぞれの領域（時間コスト）で高い性能を示すアルゴリズムを組み合わせればより汎用的に性能の高い手法を開発できるのではないかと考えました。そこで、今回の実験で明らかになった、最良の学習曲線法（SoLT-E）と、最良のゼロコスト手法（ヤコビアン共分散）をモデルベース手法の特徴量に加えることで、組み合わせることを考えます。この手法を著者らはOMNIと名づけました。OMNIの性能は下の図のような結果となりました。

この図は、各実験設定においてOMNIを除く各アルゴリズムの中で最も性能が高かったものと比較して、OMNIが何％の性能を示したかを視覚化したものになります。すなわち、色が明るい部分はOMNIが非常に高い性能を示した部分で、色が暗い部分は既存手法の方が高い性能を示したことを表しています。これを見ると、いずれの手法においてもOMNIが広い領域で高い性能を示していることがわかり、より汎用的な手法であることが確認できます。

今回著者らは組み合わせの方法として、モデルベースの手法の特徴量に、他の手法を追加するという手法を選びましたが、組み合わせの方法としてはまだまだより洗練された方法があるはずだと考えています。そのため、こういった組み合わせを考えていくという方向での研究も今後有望なのではないかと主張しています。

まとめ

この論文では、異なるグループであるNASの手法を共通する指標で比較し、各時間予算内でどの手法が最も優れた手法であるかを検証しました。また、その結果からわかった優れた手法を組み合わせ、各時間予算に対してより汎用的な手法であるOMNIを提案しました。既存のNASの手法を共通する指標で比較するのに留まらず、NASの手法を組み合わせるという新たな研究の方向性を示すという点で、非常に面白い論文だと思いました。