架构评估方法的比较在NAS!

纳斯达克 16/06/2022

三个要点
✔️ 一篇比较评估神经网络结构搜索（NAS）中探索的架构的方法的论文。
✔️ 调查哪种算法在一些不同的算法执行时间限制中显示出最高的性能。
✔️ 提议的方法称为OMNI，它结合了性能最好的算法，显示出更高的性能。

How Powerful are Performance Predictors in Neural Architecture Search?
written by Colin White, Arber Zela, Binxin Ru, Yang Liu, Frank Hutter
(Submitted on 2 Apr 2021 (v1), last revised 27 Oct 2021 (this version, v2))
Comments: NeurIPS 2021
Subjects: Machine Learning (cs.LG); Neural and Evolutionary Computing (cs.NE); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

神经结构搜索（NAS）是一种自动探索神经网络结构的方法，近年来引起了很多人的关注。虽然它非常有用，可以自动搜索架构，但搜索的计算成本非常高，所以各种研究都集中在如何降低搜索的计算成本。特别是，评估被探索的候选者的结构的阶段是一个瓶颈，所以需要减少这部分过程的计算复杂性。

迄今为止，已经提出了许多评估候选架构的方法。这些方法可以分为几个系列，每种方法只在该系列内进行比较。在这项研究中，这些方法在家庭之外进行了比较。

研究背景。

什么是NAS？

神经结构搜索（NAS）是一种自动探索神经网络结构的方法。一个著名的例子是Zoph&Le（2017）（https://arxiv.org/abs/1611.01578）。在这种方法中，一个候选网络由一个使用RNN的生成器生成，然后进行实际训练以评估其架构。根据评估值，通过强化学习探索下一个候选网络。这种方法是一种突破性的方法，可以自动搜索神经网络架构，但它的计算成本很高，需要相当多的计算资源，因为对候选架构的评估是通过实际学习来进行的。因此，已经进行了各种研究以加快这一速度。

总之，这类研究可以按每种方法分为几组。这些团体包括。

基于模型的方法
基于学习曲线的方法
混合法
零成本方法
权重分摊方法

基于模型的方法

基于模型的方法是通过使用一个预测器，将模型的结构作为输入并预测其在该架构上的性能，从而加快对已探索的架构的评估。需要注意的是，这种方法需要一个数据集（候选架构与当时的性能配对）来预测性能，并需要时间来准备这个预测器。

基于学习曲线的方法

基于学习曲线的方法是指通过观察学习曲线的变化来实际训练和评估所探索的架构的方法。最明显和最典型的方法是提前终止。与基于模型的方法不同，这种方法不需要事先准备数据集或学习时间，但需要注意的是，它需要较长的时间来评估探索出来的架构，因为每次都需要在探索出来的架构上进行训练。

混合法

一种结合了基于模型和基于学习曲线的方法。因为它结合了两者，所以它的缺点是需要更多的数据集、更多的训练时间和更多的时间来评估所探索的架构，但它是一种能够以非常高的精确度评估架构性能的方法。

零成本方法

零成本方法是指那些不需要事先训练时间或数据集的方法，另外也不需要什么时间来评估所探索的架构。具体方法包括NASWOT。

权重分摊方法

这种方法准备了一个已经在目标任务上训练过的非常大的神经网，并从中提取部分来探索架构。由于它已经被训练成一个大型的神经网，所以训练提取的架构的成本很低，评估也很快。一个众所周知的方法是 "一拍即合 "的NAS。

本文在一套共同的指标上比较了这些小组的方法，并评估了他们的表现。

实验

下一节介绍了对这些方法中的每一种进行比较的结果。

在初始化时间和查询时间之间进行权衡。

为了实际比较不同的方法，有必要了解初始化时间和查询时间之间的权衡。初始化时间是指在实际探索架构的阶段之前，提前所需的时间，而查询时间是在实际探索架构的阶段所需的时间。具体来说，在基于模型的方法中，初始化时间对应于训练性能预测器以评估所探索的架构所需的时间。查询时间相当于用这个性能预测器来评估所探索的架构所需的时间。因此，可以看出，对于基于模型的方法，初始化时间需要很高的成本，而查询时间需要很小的成本。另一方面，基于学习曲线的方法不需要预训练阶段，因此不需要任何初始化时间。然而，查询时间是非常昂贵的，因为每次都需要对每个架构进行训练，以评估它。

因此，在初始化时间和查询时间之间通常会有一个权衡。因此，如果有很多候选架构需要探索，应该选择查询时间小的算法，或者如果用户没有很多计算资源，想轻松探索，应该选择初始化时间小的算法。因此，应该选择的算法取决于用户的场景。

实验装置

由于上述的权衡，我们准备了11种可用于初始化时间的不同费用和14种可用于查询时间的不同费用，对于一个共准备了154个组合。对于这些成本组合中的每一个，具有最佳性能的算法都得到了验证。

在这里，等级相关性被用作算法性能的一个指标。排名相关是对两个排名表的相似程度的一种衡量。对每个算法所探索的每个架构的性能进行评估，并将排名表与该架构的实际排名表（通过实际训练到最后得到）使用排名表相关性进行比较，以验证该架构的性能评估的正确性。具体来说，Kendall tau、Pearson相关和Spearman相关被用作等级顺序相关。

结果。

下图比较了CIFAR-10中NAS-Bench-201上每个分数的初始化时间和查询时间以及当时的Kendall分数之间的关系。

图中显示，在154种不同的成本计算方法中，只有7种算法能够在任何一种方法中取得最高分。这在下图中可以看得更清楚。

该图按每个数据集的初始化时间和查询时间组合得分最高的算法进行了颜色编码。图中依次显示了在每个时间预算中哪些方法更有优势。

我们首先关注的是低初始化时间和低查询时间。我们可以看到，SynFlow（灰色）和Jacobian Covariance（蓝色）在这个时候表现相对较好。然而，我们可以从右下方看到，这些零成本方法在具有大搜索空间的数据集上表现不佳，如DARTS。

接下来，我们看看低初始化时间和高查询时间。SoTL-E（红色）在这一领域显示出一贯的高绩效。

在高初始化时间和低查询时间下，GCN（紫色）和SemiNAS（黑色）表现更好。然而，对于较大的初始化时间预算，提升树（棕色）表现更好。由于初始化时间与基于模型的方法中性能预测器的训练时间相对应，这些结果表明，当有足够的性能数据时，它们工作得很好。在这方面最有趣的是，在NAS-bench-101/201中，SynFlow和Jacobian协方差的计算时间各为3秒，而考虑到初始化时间为30小时，基于模型的这是一个比方法更高的性能。这可能表明，NAS-bench-101/201没有基于模型的方法所需要的那么多数据。

从这些结果中可以得出的一个事实是，有一些算法表现出了高性能，但每一个算法都是针对每一个初始化时间和查询时间的，没有一个算法以通用的方式表现出高性能。在此，作者认为可以通过结合在每个领域（时间成本）中表现出高性能的算法来开发一个更普遍的性能的方法。因此，作者考虑将最佳学习曲线方法（SoLT-E）和最佳零成本方法（雅各布协方差）结合起来，这些方法在他们的实验中被确认，并将它们加入到基于模型的方法的特征中。作者将这种方法命名为OMNI；OMNI的性能如下图所示。