最新AI論文をキャッチアップ

HiWave:追加学習なしで4K画像を実現するウェーブレット拡散生成の革新

HiWave:追加学習なしで4K画像を実現するウェーブレット拡散生成の革新

LLM-Paper

3つの要点
✔️ HiWaveは事前学習済み拡散モデルを用いて、追加学習なしで4K画像を生成できる手法
✔️ パッチ単位のDDIM逆変換とウェーブレットによる周波数分離を組み合わせ、構造と細部を両立
✔️ ユーザースタディでは、既存手法よりも高評価を獲得し、重複や破綻の少ない高品質な画像生成を実現

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
written by Tobias VontobelSeyedmorteza SadatFarnood SalehiRomann M. Weber
(Submitted on 25 Jun 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

概要

本論文では、事前学習済みの拡散モデルを用いて、追加の学習やアーキテクチャの改変を必要とせず、超高解像度(例:4096×4096)の画像生成を実現する手法「HiWave」を提案。

既存のパッチベース手法では、局所的なディテールを高められる一方で、全体構造の破綻や重複アーティファクトが生じやすいという問題があります。

HiWaveは、まず低解像度でベース画像を生成した後、それを高解像度にアップスケールし、各パッチごとにDDIM逆変換を適用して初期ノイズを推定。さらに、周波数領域において低周波成分は構造保持に使い、高周波成分には詳細情報を付加するよう誘導します。

人間による評価実験において、提案手法は従来手法よりも高品質と評価される結果となっており、高解像度画像合成の新たなアプローチとして注目されます。

提案手法

HiWaveは、「ベース画像生成」「パッチ単位DDIM逆変換」「ウェーブレットベースの詳細補強」という三段階のプロセスから構成されています。

まず、事前学習済み拡散モデル(例:Stable Diffusion XL)を用いて、1024×1024のベース画像を生成し、それを画像空間で4096×4096へと補間により拡大。
次に、拡大画像をパッチ単位で分割し、各パッチに対してDDIM逆変換を実行することで、元画像の構造を反映した初期ノイズを得ます。
最後に、DWT(離散ウェーブレット変換)を用いて、低周波成分には構造を保持するための制約を、そして高周波成分にはCFG(classifier-free guidance)に基づく詳細強調のための補正を加えます。

このように、周波数ごとに異なるガイダンスを適用することで、画像全体の整合性と細部の高精細さを両立させることに成功。

実験

本論文では、HiWaveの有効性を検証するために、Pixelsmith(パッチベース)およびHiDiffusion(直接推論型)との比較実験を行いました。

評価にはLAION2B-en-aestheticデータセットから1,000件のプロンプトをランダムに抽出し、各手法で4096×4096解像度の画像を生成。
視覚的比較では、HiDiffusionが構造破綻やぼやけたテクスチャを生じ、Pixelsmithは重複オブジェクトを生成する傾向が見られました。

これに対して、HiWaveは構造的整合性を保ちつつ細部の精度も高く、アーティファクトの発生が著しく抑制されていたとのこと。加えて、ユーザーによるA/Bテストも実施され、HiWaveは全体の81.2%のケースで他手法より好まれる結果に。

これにより、提案手法の高品質かつ自然な高解像度画像生成性能が定量・定性的に確認されました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする