赶上最新的AI论文

Dress&Dance:用于高精度虚拟试衣和动作生成的视频扩散模型

Dress&Dance:用于高精度虚拟试衣和动作生成的视频扩散模型

三个要点
✔️ Dress&Dance是一种通过单张图像和参考视频生成高分辨率试穿+舞蹈视频的方法
✔️ 利用CondNet整合服装、人物和动作,实现服装的忠实再现和自然动作的生成
✔️ 实验表明,它在实现高质量虚拟试穿视频方面优于开源方法和商业方法。试穿视频

Dress&Dance: Dress up and Dance as You Like It - Technical Preview
written by Jun-Kun ChenAayush BansalMinh Phuoc VoYu-Xiong Wang
(Submitted on 28 Aug 2025)
Comments: Project Page: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本研究提出了一个新框架 Dress&Dance,它可以虚拟试穿用户选择的衣服,并生成具有任意舞蹈动作的视频。

传统的虚拟试穿系统往往局限于静态图像,无法确认穿着服装的感觉以及织物因运动而产生的自然摇摆。
此外,如果将现有的视频生成模型简单地组合在一起,就会出现明显的问题,如服装塌陷的模式和无法对姿势变化做出反应。

Dress&Dance 可将用户的单张图像、待试穿服装的图像和显示动作的参考视频作为输入,生成 5 秒、24 FPS、1152 x 720 的高质量视频。
值得注意的是,用户可以同时试穿不同的服装,包括上装和下装,而且该系统足够灵活,可以转移他人所穿的服装。

此外,包包和鞋子等配饰也可以保留,从而实现逼真一致的试穿体验。
该系统的质量远高于现有的开源系统和商业系统,有望在未来的网上购物和娱乐中得到创新性应用。

建议的方法

拟议方法 Dress&Dance 的核心是 CondNet,这是一种利用注意力机制的新型调节网络。

CondNet 能够以统一的方式处理文本、图像和视频等异构输入,改善服装对齐(服装注册)和运动保真度。
具体来说,用户图像、服装图像和运动参照视频都被标记化,并纳入扩散模型的交叉注意中,因此生成视频的每个像素都与整个输入相关联。
这种设计使视频生成自然,既能跟随人体运动,又能保留服装的细节和纹理。

为提高训练效率,还采用了两阶段策略。
首先,通过课程学习的 "热身阶段 "让系统学会估计服装的位置,然后是 "渐进学习 "阶段,在这一阶段中,分辨率逐渐提高,以达到稳定和更高的分辨率。

此外,通过引入一个专门的细化模块,将分辨率从最初的 8 FPS 输出提高到 24 FPS,从而进一步提高视频质量。
这种方法的优势在于,这些创新有效地利用了少量视频数据和大量图像数据,生成了高分辨率和逼真的拟合视频。

实验

作者从几个方面评估了 Dress&Dance 的性能。

首先,他们使用了两个独立构建的数据集:
第一个数据集由从互联网上收集的约 8 万对服装/视频组成,第二个数据集由 183 名模特录制的试穿视频数据组成。

另外还有约 400 万对服装图像被用于增强学习效果。
实验测试了三种模式。
单件服装试穿模式、同时试穿上衣和下装的多服装模式,以及转移他人所穿服装的转移模式。

为了进行比较,还设置了 TPD 和 OOTDiffusion 等开源方法以及 Kling 和 Ray2 等商业模式。
除了 PSNR、SSIM 和 LPIPS 等定量评价外,还采用了 GPT 等主观评价作为评估指标,如试穿保真度和运动质量。

结果表明,Dress&Dance 在试穿逼真度方面明显优于其他方法,在视觉质量和动作再现性方面的表现也不亚于或优于商业系统。
此外,消融实验证实,CondNet 设计和逐步学习策略对最终质量的提高有很大帮助。

总之,研究结果表明,该方法突破了目前的限制,为实用视频拟合提供了可能。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们