在实践中解决模型更新的痛苦! 一种用于无回填模型替换的表征学习方法现已面世!
三个要点
✔️ CVPR2020口头论文:一种学习后向兼容特征表示的方法。
✔️ 如何定义和学习独立于网络结构和损耗函数的兼容性标准。
✔️ 您现在可以更换模型而无需回填。
Towards Backward-Compatible Representation Learning
written by Yantao Shen, Yuanjun Xiong, Wei Xia, Stefano Soatto
(Submitted on 26 Mar 2020 (v1), last revised 29 Mar 2020 (this version, v2))
Comments: Accepted to CVPR 2020 as oral
Subjects: Computer Vision and Pattern Recognition (cs.CV)
介绍:
这将是CVPR2020代表学习环节的口头报告。它将旨在实现表征学习和无回填模型更新的后向兼容性。
表征学习是指以获得数据的有效特征表征为目的的学习,获得的特征表征可以应用于相似性匹配、搜索和推荐等任务。具体来说,流程是"当新的数据作为查询给定后,通过DNN映射到一个向量空间(称为嵌入),然后与嵌入空间上的图库集进行对比,并进行匹配"等。这样映射到向量空间的主要优势是,它不仅可以让我们处理需要精确匹配的查询,比如关键词搜索,还可以处理精度很高的抽象查询。

事实上,笔者本人在工作中也使用了这种框架,相信很多AI服务都会使用这种方式,因为它的通用性。
另一方面,如果你正在运行这些服务,你将面临模型更新的挑战,随着你部署AI服务,你会随着时间的推移积累数据,你将能够通过对不断增长的数据集进行再学习来提高嵌入的质量。另外,在开始操作的过程中,可能会发现一些问题,比如精度不够或者模型不好,需要改进。
但是,并不能保证新重新训练的模型的嵌入空间与旧模型的嵌入空间相同(通常映射到一个完全不同的空间),所以不能直接比较每个模型的嵌入。因此,现有的图库集嵌入必须完全被新的模型所取代(称为回填)。
实践中的模式更新之痛
那么就会想到做回填,但是在实际操作中,这样做是非常痛苦的。其中一些原因是"画廊的布景通常非常大",而且服务是在不断的运动中。在过渡期间,你需要考虑的事情有以下几点
- 回填成本(需要重新推断处理的大数据)
- 回填作业管理(因为这将是一个大型数据迁移)。
- 新旧图库集的一致性检查。
- 什么时候在新旧模型和图库集之间切换?
- 同时操作新旧模型(如有必要),并对新旧图库集进行双写。
- 例如,如果你想添加一个处理过的查询到一个图库集
如上所述,所谓的DB迁移,需要的开发和操作水平是一样的(经历过这个过程的人都会明白其中的难度)。换句话说,这不仅仅是在实践中提高准确度的问题,而是需要对置换的效果和上述额外的开发和基建成本进行综合判断(有些情况下,可能会发展成需要PO判断的议程)。此外,深度学习的发展速度非常快,即使经过努力实现,可能很快就会出现更好的方法。因此,提高这类服务的模型精度是目前非常耗费人力的任务。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别