
联合学习中的最佳架构搜索方法!
三个要点
✔️ 自动设计用于联合学习的NN架构
✔️ 即使在不可能直接查看数据集的情况下,也要探索最佳架构
✔️ 超越人工设计的架构的性能
Towards Non-I.I.D. and Invisible Data with FedNAS: Federated Deep Learning via Neural Architecture Search
written by Chaoyang He, Murali Annavaram, Salman Avestimehr
(Submitted on 18 Apr 2020 (v1), last revised 4 Jan 2021 (this version, v4))
Comments: CVPR2020
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Distributed, Parallel, and Cluster Computing (cs.DC); Multiagent Systems (cs.MA); Machine Learning (stat.ML)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,出现了对神经网络的训练要考虑到隐私甚至保密性的需求。例如,在使用CT图像作为诊断输入的模型中,由于数据隐私的原因,不可能通过在一个地方收集世界各地医院的病人的数据来训练模型。联合学习是一种解决此类问题的方法,正在受到关注。这种方法允许每家医院在不透露原始CT图像的情况下训练一个模型,如下图所示。
然而,最近的研究表明,在使用联邦学习对非相同和独立分布的数据进行模型训练时,使用预先定义的模型架构可能不是最佳选择。此外,由于建模者无法看到数据的分布情况,手动设计一个更好的架构是非常困难的。
因此,作为联邦学习自动化的一部分,作者考虑了联邦学习中神经网络架构的自动优化问题。在这种方法中,每个边缘服务器,例如在每个医院,为那里的本地数据搜索架构和权重,并将它们转发给管理服务器。然后管理服务器对它们进行平均,并将它们转发给每个边缘服务器。重复这一程序,以寻找联邦学习限制下的最佳架构。在实验部分,通过比较所提出的方法和人工设计的架构来验证所提出的方法的有效性。
建议的方法
解决问题
在联合学习中,假设有K个边缘服务器。每个边缘服务器在本地都有自己的数据集Dk。对于这些K个边缘服务器之间的协作学习,目标函数定义如下。
在这个方程式中,w代表网络的权重,α代表网络的结构,l代表神经网的损失函数。为了使上述目标函数最小化,以前的研究采用了固定架构和更新网络权重、根据结果改变架构、再次更新网络权重等程序。然而,本文提出要更新架构本身以及网络权重。在这种情况下,上述目标函数可以被表述为:。
搜索空间
一个NAS有三个组成部分需要考虑
- 搜索空间的定义
- 搜索算法
- 性能估计的方法
在本文中,搜索空间是DARTS和MiLeNAS中定义的现有搜索空间。这个搜索空间如下图所示。
由于如果包括跳过的连接等,神经网架构的搜索空间会变得过大,因此架构通常是以单元为基础来定义的,如上图所示,并探索单元的组合。本文也采用这种方法来探索基于细胞的搜索空间。
搜索算法
在上述搜索空间中,每个边缘服务器使用MiLeNAS在本地数据中搜索最佳权重和架构,时间为几个epochs,如下式所示。
联合神经结构搜索
作者使用以下程序提出了联合神经结构搜索。
- 本地搜索(学习每个边缘服务器上存在的数据,探索架构)
- 每个边缘服务器向中央服务器发送权重w和架构α。
- 一个中央服务器汇总了这些
- 汇总的结果被发送到每个边缘服务器,后者将其更新为该值
重复这一程序以寻找最佳架构。
中央服务器对每个边缘服务器的结果进行汇总,过程如下
从公式中可以看出,作为一个整体,它只是简单地对每个边缘服务器上获得的结果进行了平均。
实验
实验装置
16台装有GPU(RTX2080ti)的机器被准备作为边缘服务器。
数据集是CIFAR10,有600,000张图像,按比例分成16个边缘服务器,每个服务器有
结果。
上面的数字显示了在非IID数据上测试精度的变化。(a)显示了手工设计的模型的结果,(b)显示了使用建议方法设计的模型的结果。图中显示,使用建议的方法设计的模型取得了更高的精度。这也表明,每一轮的准确性提高是稳定的。
接下来,对所提方法的效率进行了评估。结果显示在下面的表格中。
从表中可以看出,所提出的方法(FedNAS)的搜索时间较小,可以设计出更紧凑的模型。
摘要
在本文中,我们提出了FedNAS,一种在Federated Learning限制下自动探索神经网架构的方法。研究发现,用这种方法探索的架构能够设计出比人工设计的模型更准确的模型,而且探索时间也更快。
与本文相关的类别