赶上最新的AI论文

虚拟试穿几乎成为现实!生成式建模的前线!

生成对抗网络(GAN)

三个要点
✔️香港大学与腾讯合作开发新的虚拟试穿技术
✔️提出一个无解析的 "教师-导师-学生 "模型,无需分割信息
✔️在各种数据集上实现了SoTA

Parser-Free Virtual Try-on via Distilling Appearance Flows
written by Yuying GeYibing SongRuimao ZhangChongjian GeWei LiuPing Luo
(Submitted on 8 Mar 2021 (v1), last revised 9 Mar 2021 (this version, v2))
Comments: Accepted by CVPR2021

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

首先

虚拟试穿是将服装图像与人体图像相匹配的过程。由于其在电子商务和时尚图像编辑方面的潜在应用,这项任务已经被许多研究人员解决。大多数SoTA方法,如VTON、CP-VTON、VTNEP、ClothFlow、ACGPN、CP-VTON+等。大多数SoTA方法,如VTON、CP-VTON、VTNEP、ClothFlow、ACGPN和CP-VTON+,都需要身体不同部位的分割信息,如上身。然而,即使是一个小的分割错误也会导致一个非常不现实的拟合图像,如上图所示,所以需要一个高度准确的解析(分割)来进行拟合模型。

为了减少对准确分割信息的依赖,我们提出了一个无解析网络,即WUTONWUTON将基于解析的模型提炼为"教师"网络,并将其转换为无解析的 "学生 "网络。学生"网络来生成拟合图像。然而,虽然WUTON不需要语段信息作为输入,但它最终以基于解析的模型作为"老师"来训练"学生",其准确性取决于基于解析的模型。

为了解决这些挑战,本文提出了一个无解析的无解析外观流网络(PF-AFN)。

相关术语

让我们回顾一下几个相关的术语。

虚拟试穿:现有的基于深度学习的虚拟试穿方法大致可分为基于三维模型的方法和基于二维图像的方法。 由于基于三维模型的方法需要额外的三维测量和计算资源,因此基于二维图像的方法被更广泛地使用。现有的基于二维图像的研究大多对人体图像中的服装部分进行了屏蔽,并根据相应的服装图像进行重建,这需要进行高精度的解析。最近,WUTON提出了一种无需解析的方法,但它仍然依赖于基于解析的模型的性能。

外观流外观流是一个二维坐标向量,表示源图像中哪些像素可以用来合成目标。它被用于视觉跟踪、图像修复和人脸图像的超分辨率。

知识提炼:知识提炼是一个最初为模型压缩引入的想法,利用"教师"网络的特定信息来训练"学生"网络。然而,最近有研究表明,知识蒸馏也可以在不同的任务之间转移知识,因此,由多个模型学到的知识可以转移到一个模型中。

建议的方法

本文提出了一个不需要解析器的模型,即无解析器的外观流网络(PF-AFN),它不需要分割信息。与WUTON等传统模式不同,这是第一个以"教师-导师-学生"三阶段结构提炼知识的模式。在上图中,说明了PF-AFNWUTON的区别。

网络培训

从上图可以看出,我们的方法包括两个网络:PB-AFN,这是一个基于解析的网络;PF-AFN,这是一个无解析网络。作为一个训练过程,我们首先在一个服装和穿着这个服装的人的图像上训练PB-AFN,就像现有的方法。我们论文、脸部、衣服的下半部分、身体分割结果和姿势估计结果串联起来。通过将这个扭曲的服装图像与人体图像的存储部分和姿势估计相连接,我们可以训练生成模块,使其与地面真实的教师图像一起合成一个试穿图像。

接下来,在训练这个PB-AFN之后,我们随机选择不同的服装图像,并生成同一个人试穿不同衣服的图像。这个基于解析的模型被视为"导师"网络,这里生成的假图像被视为"导师知识"。在PF-AFN中,一个翘曲模块被用来预测导师和服装图像的外观流,而在PF-AFN中,一个翘曲模块被用来预测导师和服装图像之间的外观流,一个生成模块将导师和服装图像与学生的扭曲情况进行合成。在本文中,真实图像被视为"教师知识",以纠正学生的错误,让学生适当地模仿原始真实图像。此外,导师网络,PB-AFN,从外观流中提炼知识到学生网络,PF-AFN

外观流翘曲模块(AFWM)

PB-AFNPF-AFN都包括一个扭曲模块,它预测服装图像和人的图像之间的关联,以扭曲服装。如上图所示,翘曲模块的输出是一个外观流,是二维坐标向量。翘曲模块两个金字塔特征提取网络(PFEN)和一个渐进式外观流估计网络(AFEN)组成。翘曲模块由两个金字塔特征提取网络(PFEN)和一个渐进式外观流估计网络(AFEN)组成。在每个金字塔级别,AFEN都会生成外观流,并在下一个级别进行修改。基于解析的翘曲模块(PB-AFWM)和无解析的翘曲模块(PF-AFWM)的结构完全相同,只是输入不同。

金字塔特征提取网络(PFEN)

 如上图(b)所示,PFEN两个特征金字塔网络(FPN)组成,从N个层次中提取两个分支金字塔特征。基于解析的扭曲模块的输入是服装图像和人体特征,而无解析扭曲模块的输入是服装图像和生成的假图像。

外观流量估计网络(AFEN

AFENN个流量网络(FNs)组成,并从N个层次的金字塔特征中估计外观流量。在最高的N层提取的金字塔特征首先交给FN-1来估计第一次出现的流量。接下来,N-1层的金字塔特征被交给FN-2。这个过程一直重复到最后一层,最后根据最后的输出对目标服装进行变形。

生成模块(GM)

PB-AFNPF-AFN都包括一个生成模块,用于组合试穿图像。基于解析的生成模块(PB-GM)结合了扭曲的服装、人体姿势估计和身体的保留区域,而无解析的生成模块(PF-GM)结合了扭曲的服装和导师的图像作为输入。这两个模块都采用了Res-UNet,它是建立在UNet架构之上的。

在训练阶段,生成模型和扭曲模块AFWM的参数都通过以下公式进行优化。

Ll: 像素范围内的L1损失

Lp: 感知性损失

可调节的知识蒸馏

除了在真实图像上对无解析器的学生网络PF-AFN进行监督训练外,本文还提炼了人类和服装图像之间的外观流,以帮助找到它们之间的关联。从PB-AFN中提取的特征通常可以捕捉到丰富的语义信息,以及估计的外观流可能更准确,因此可以指导PF-AFN。然而,正如前面所指出的,如果解析结果不准确,那么基于解析的PB-AFN也会对PF-AFN产生相当大的指导作用,使得语义信息和估计的外观流相当奇怪。为了避免这种情况,我们在本文中引入了一种全新的可调式蒸馏损失。该定义如下。

实验

数据集

实验分别用VITON、VITON-HD和MPV进行。

结果

从上图可以看出,PF-AFNVITON和MPV数据集上都实现了SoTA性能。

最后。

在本文中,我们使用了一种名为"教师-导师-学生"的全新的知识提炼方法,无需解析即可生成高性能的拟合图像。这种方法的有趣之处在于,由基于解析的导师网络产生的假图像被视为无解析学生网络的输入,然后由原始的真实图像(教师知识)进行监督。除了以真实图像为师,我们还提炼出人体图像和服装图像之间的外观流,以帮助找到相关的关系。实验结果表明,AF-PFN在各种数据集上实现了SoTA

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们