赶上最新的AI论文

CMP-NAS "神经结构搜索的兼容性

矢量搜索

三个要点
✔️ 提出了一种考虑兼容性的神经结构搜索(NAS)方法。
✔️ 显示了架构对兼容性的影响和所提方法的有效性
✔️ 在图像检索系统中以最小的精度损失获得最大的效率!

Compatibility-aware Heterogeneous Visual Search
written by Rahul DuggalHao ZhouShuo YangYuanjun XiongWei XiaZhuowen TuStefano Soatto
(Submitted on 13 May 2021)
Comments: Accepted by CVPR 2021.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code: 

本文所使用的图片要么来自论文件,要么是参照论文件制作的。

简介

这是CVPR2021的一篇被接受的论文。在图像检索系统中,考虑到真实的服务,画廊集和查询在嵌入方面有不同的要求是很常见的,而且查询通常是资源有限的。在此基础上基本上,它需要被实时处理(如果不是的话,甚至更快)。然而,图像检索系统通常是同质的,图库集和查询使用相同的嵌入模型。

对于这种情况,有两种可能的设计:为画廊集使用一个大的模型(上面的橙色),牺牲了效率,也牺牲了高精确度。相反,使用较小的模型进行查询(绿色),牺牲了准确性来换取高效率。因此,在构建图像检索系统时,需要在准确性和效率之间进行权衡。

在这里,作者旨在实现一个由不同嵌入模型组成的异质系统,其中画廊集是用大模型推理的,而查询则是用紧凑的模型。在这种配置下,可以同时实现精度和效率。为了实现这一目标,每个嵌入模型必须是兼容的,这就是作者之前的工作--向后兼容训练(BCT)的意义所在。此外,作者表明,BCT可以与神经结构搜索(NAS)相结合,找到达到最先进的兼容性精度的架构。

向后兼容的培训

这就是该方法的基础技术,它可以实现向后兼容的表示学习。如果你阅读之前的这篇文章,你可能会发现更容易理解这个方法。

问题的背景是,在更新图像(矢量)检索系统中的嵌入模型时,单独训练的模型是通常它们并不总是兼容的,也不总是共享相同的嵌入空间(它们通常有很大的不同),这使得我们无法比较更新前后的嵌入表示,如下图所示。我们提出了一种学习表征的方法,以便嵌入是兼容的。这里省略了细节。

这个问题也适用于从图库集的大型嵌入模型中创建查询的紧凑嵌入模型,我们在本文中也将以BCT为基本技术来清除这个问题。另外,在下文中,我们在与BCT论文相同的标准下讨论兼容性标准。

建议的方法:CMP-NAS

在这一节中,我们将介绍所提出的方法与上述以往研究的新颖之处。作为BCT的进一步应用,作者提出了实现迄今所讨论的具有异质配置的图像检索系统的想法,此外,他们还提出了将BCT应用于神经结构搜索(NAS)的想法。此外,我们提出了将BCT应用于神经结构搜索(NAS)的想法,这将使我们能够在尽可能少的精度损失下保持模型的紧凑。

这是本论文的一个新的重要贡献,它考虑并验证了架构优化中的兼容性概念。为了回答什么是建筑学中的兼容性这一问题在下文中,我们将首先解释作者提到的两个级别的兼容性。

重量级的兼容性

给定一个图集嵌入模型$phi_g$及其分类器$K_g$,Weight-level compatibility旨在学习查询模型$phi_q$的权重$w_q$,从而使兼容性规则得到满足。在这种情况下,可以考虑以下目标函数。在这种情况下,目标函数可以是下面的,它加上分类器$K_g$对图库集的嵌入向量的损失。

如前所述,使用BCT可以获得最佳的兼容性能。也可以通过对旧模型的微调来实现一些权重级的兼容,但这样做的缺点是更受查询模型结构的制约。

架构层面的兼容性

接下来,我们有架构层面的兼容性。给定一个图库模型$phi_g$和一个分类器$K_g$,对于一个查询模型$phi_q$,目标是搜索与固定图库模型最兼容的架构$a_q$。

以下两个问题和我们的实验结论促使我们认识到架构级兼容性的必要性。

  • Q1: 架构在多大程度上影响兼容性?
  • Q2:传统的NAS能否找到一个兼容的架构?

为了回答这些问题,作者对从ShuffleNet搜索空间中随机选择的40个架构进行了实验,每个架构的规模约为3亿个flops。实验的结论如下

  • A1: 在上图(a)中,我们绘制了这些架构用BCT训练时,异质设置的准确度,除以flops轴。同样数量的flops在精度上的巨大差异表明,架构确实对精度有可衡量的影响。
  • A2:上图(b)比较了相同架构下的正常学习模式和使用BCT的学习模式。绘制了同质设置的准确率和异质设置的准确率。图中显示,两个准确率之间的相关性很低,表明传统的NAS可能不是图中显示,两个准确率之间的相关性很低,表明传统的NAS可能无法成功找到最兼容的架构。

另外,从上图(c)中,我们可以看到,使用BCT时,Homogeneous和Heterogeneous设置的准确性之间的相关性更高。由此,我认为我们可以预期,将BCT应用于传统的NAS将实现兼容的架构探索。

CMP-NAS的算法

正如到目前为止所提到的,在为查询建立紧凑模型时,最好能够确保权重级和架构级的兼容性。用于减轻模型重量的通常的NAS和蒸馏并不能提供这两种兼容性,但作者通过将NAS与BCT结合起来解决了这个问题。在下文中,将对CMP-NAS进行详细描述,但算法本身是简单的。

  • 第一步:对于查询架构$a_q$,使用训练集$T$,用BCT进行训练,得到优化的权重$w^*_q$和分类器$K^*_q$。
  • 第二步:通过使用第一步获得的$w^*_q$和$K^*_q$在验证集上评估的奖励$R$最大化,在搜索空间$/omega$中找到最佳采石场结构。

此外,以下三个奖励函数$R$也得到了验证。

$M(用于查询嵌入的模型,用于画廊嵌入的模型)$。$R_1$是同质设置中的基线奖励,$R_2$是异质设置中的准确度,而$R_3$被设计为包括两种准确度。

顺便说一下,作者的实验结果表明,$R_3$是最好的。同时,搜索空间为基于ShuffleNet的超级网络,并使用EA作为搜索策略。更多细节,请参考该论文。

实验

现在,我们将简要介绍作者进行的实验。为了显示作者提出的异质系统的有效性,对人脸检索和时尚物品检索这两项任务进行了测试。

首先,下图(a)将CMP-NAS获得的架构与人脸检索中的其他轻量级架构进行了比较。Paragon的设置是无约束的巨大模型(本文使用ResNet-101)的准确性,并嵌入画廊和查询。同质设置是指下轴所示的架构同时用于图库和查询的情况,异质设置是指图库集被嵌入ResNet-101,查询被嵌入下轴的架构的情况。

结果表明,由CMP-NAS得到的架构最接近Paragon,而且架构的兼容性极大地提高了准确性。它还显示了异构系统的有效性,因为它在所有架构情况下都优于同构系统。

上图(b)显示了时尚物品搜索的实验结果,这也显示了所提方法的最佳性能。

包括推理的成本,下面以人脸搜索任务为例,其结果是,与基线(MobileNetV2)相比,该架构在准确性方面取得了显著的改善,同时仍然与基线一样高效。

摘要

正如我所提到的,这是一个非常有效的方法,它解决了矢量搜索系统中准确性和效率之间的传统权衡。就我个人而言,我觉得解决这种权衡的想法非常有趣,而且实际应用的好处也很大,所以我觉得这篇论文很有意思。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们