
HiWave:无需额外学习即可生成 4K 图像的小波扩散创新
三个要点
✔️ HiWave 是一种无需额外训练即可使用预训练扩散模型生成 4K 图像的方法
✔️ 将逐块 DDIM 反演和频率分离与小波相结合,将结构和细节结合在一起
✔️ 用户研究表明,该方法的评分高于现有方法,重叠和破坏较少。生成高质量图像,减少重复和塌陷
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
written by Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
(Submitted on 25 Jun 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
本文提出的 HiWave 是一种使用预先训练的扩散模型生成超高分辨率(如 4096 x 4096)图像的方法,无需额外的训练或架构修改。
虽然现有的基于补丁的方法可以增强局部细节,但容易造成整体结构的破坏和重叠伪影。
HiWave 首先生成低分辨率的基础图像,然后将其放大到高分辨率,并对每个补丁应用 DDIM 反变换来估计初始噪声。此外,在频域中,低频分量用于保存结构,而高频分量则用于增加细节信息。
在人体评估实验中,发现所提出的方法比传统方法质量更高,因此是高分辨率图像合成的一种新方法。
建议的方法
HiWave 包括三个阶段:基础图像生成、片段式 DDIM 反转和基于小波的细节增强。
首先,使用预先训练好的扩散模型(如 Stable Diffusion XL)生成 1024 x 1024 的基础图像,然后通过插值将图像空间放大到 4096 x 4096。
然后将放大后的图像划分为多个补丁,并对每个补丁进行 DDIM 反变换,以获得反映原始图像结构的初始噪声。
最后,使用 DWT(离散小波变换)对低频成分进行约束以保留结构,并根据 CFG(无分类器引导)对高频成分进行修正以增强细节。
通过对每个频率应用不同的引导,成功实现了整体图像的一致性和高细节增强。
实验
为了验证 HiWave 的有效性,我们进行了与 Pixelsmith(基于补丁)和 HiDiffusion(基于直接推理)的对比实验。
为了进行评估,从 LAION2B-en-aesthetic 数据集中随机选取了 1,000 个提示,每种方法都生成了 4096 x 4096 分辨率的图像。
目测比较结果显示,HiDiffusion 产生的图像结构破碎、纹理模糊,而 Pixelsmith 则倾向于产生重复的对象。
相比之下,HiWave 在保持结构完整性的同时,还具有较高的细节精确度,并大大减少了伪影的产生。此外,用户还进行了 A/B 测试,在 81.2% 的情况下,HiWave 比其他方法更受欢迎。
这从定量和定性两方面证实了所提出方法的高质量和自然的高分辨率图像生成性能。
与本文相关的类别