
Dress&Dance: 高精度バーチャル試着と動作生成を可能にする動画拡散モデル
3つの要点
✔️ Dress&Danceは、画像1枚と参照動画から高解像度の試着+ダンス動画を生成する手法
✔️ CondNetにより衣服・人物・動作を統合し、忠実な衣服再現と自然な動作生成を実現
✔️ 実験ではオープンソース・商用手法を上回り、高品質なバーチャル試着動画を達成
Dress&Dance: Dress up and Dance as You Like It - Technical Preview
written by Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
(Submitted on 28 Aug 2025)
Comments: Project Page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
概要
本研究は、ユーザーが選んだ衣服をバーチャルに試着し、さらに任意のダンス動作を伴う動画を生成する新しい枠組み「Dress&Dance」を提案しています。
従来のバーチャル試着は静止画像に限られることが多く、着用感や動きによる布の自然な揺れを確認できないという制約がありました。
また、既存の動画生成モデルを単純に組み合わせると、衣服の柄が崩れる、ポーズ変化に対応できないといった問題が顕著とのこと。
Dress&Danceは、ユーザーの一枚の画像、試着したい衣服の画像、さらに動作を示す参照動画を入力とし、5秒間・24FPS・1152×720の高品質動画を生成。
特筆すべきは、ユーザーが上下別の衣服を同時に試着できる点や、他人の着ている衣服を転送できる柔軟性です。
さらに、バッグや靴といったアクセサリーも保持され、リアルで一貫性のある試着体験が可能に。
既存のオープンソースや商用システムを大きく上回る品質を達成し、将来的にはオンラインショッピングやエンターテインメントに革新的な応用が期待されます。
提案手法
提案手法Dress&Danceの中心となるのは、注意機構を活用した新しい条件付けネットワーク「CondNet」です。
CondNetはテキスト・画像・動画といった異種の入力を統一的に処理可能にし、衣服の位置合わせ(ガーメントレジストレーション)や動作の忠実性を高めます。
具体的には、ユーザー画像、衣服画像、動作参照動画をそれぞれトークン化し、拡散モデルのクロスアテンションに組み込むことで、生成される動画の各ピクセルが入力全体と結びつく仕組みを実現。
この設計により、衣服の細部や質感を保ちながら、身体の動きに追随する自然な映像生成が可能となりました。
また、訓練効率を高めるために二段階の戦略を採用。
まず、カリキュラム学習による「ウォームアップ段階」で衣服の位置推定を学ばせ、次に解像度を徐々に引き上げる「段階的学習」により安定性と高精細化を実現します。
さらに、初期の8FPS出力を24FPSに高解像度化する専用リファイナーモジュールを導入し、映像品質を一層向上させました。
これらの工夫により、少量の動画データと大量の画像データを効果的に活用し、高解像度かつリアルな試着動画を生成できる点が本手法の強みです。
実験
著者らはDress&Danceの性能を複数の観点から評価しました。
まず、独自に構築した2種類のデータセットを利用しています。
1つ目はインターネットから収集した約8万組の衣服・動画ペア、2つ目は183名のモデルにより収録された試着動画データです。
さらに約400万組の衣服画像を併用し、学習を補強しました。
実験では3つのモードを検証。
単一衣服の試着、上下を同時に試着する複数衣服モード、そして他人の着用衣服を転送するモードです。
比較対象として、TPDやOOTDiffusionなどのオープンソース手法、KlingやRay2といった商用モデルを設定。
評価指標にはPSNR・SSIM・LPIPSといった定量評価に加え、GPTを用いた試着忠実度や動作品質などの主観的評価も取り入れています。
その結果、Dress&Danceは試着の忠実度で他手法を大幅に上回り、ビジュアル品質や動作再現性でも商用システムと同等以上の性能を示しました。
さらに、アブレーション実験により、CondNetの設計や段階的学習戦略が最終的な品質向上に大きく寄与していることが確認。
総じて、本手法は現行の限界を突破し、実用的な動画試着の可能性を切り拓く成果となっています。
この記事に関するカテゴリー