![AudioLDM]使用潜在扩散的文本到音频生成模型](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/January2024/audioldm.png)
AudioLDM]使用潜在扩散的文本到音频生成模型
三个要点
✔️ 使用纯语音数据训练 LDM 可提高计算效率
✔️ 使用 CLAP 可确保 "文本到语音的一致性",而无需使用配对数据
✔️ 只需使用训练好的 AudioLDM 即可执行各种零拍摄任务,无需微调
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
written by Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley
(Submitted on 29 Jan 2023 (v1), last revised 9 Sep 2023 (this version, v3))
Comments: Accepted by ICML 2023. Demo and implementation at this https URL. Evaluation toolbox at this https URL
Subjects: Sound (cs.SD); Artificial Intelligence (cs.AI); Multimedia (cs.MM); Audio and Speech Processing (eess.AS); Signal Processing (eess.SP)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
本研究提出了一个名为 "AudioLDM "的生成模型,它可以在单个 GPU 上根据文本提示生成高质量音频,例如,可以根据文本指令生成以下音频
- 环境噪音
- 动物的叫声
- 人们在交谈
- 音乐
AudioLDM 利用用于生成高质量图像的潜在扩散模型 (LDM) 生成具有连续潜在表征的语音。具体来说,它将基于 Mel 频谱的变异自动编码器 (VAE) 与基于对比语言-音频预训练 (CLAP) 的嵌入条件相结合,实现了高级文本条件下的语音生成。
以这种方式生成的音频可在下面的 AudioLDM 项目页面上查看。
此外,研究还表明,训练有素的 AudioLDM 可用于执行以下语音操作,而无需进行微调。
- 语音风格转换
- 超分辨率(如视频)
- 油画
让我们看看如何在 AudioLDM 模型结构中实现这些功能。
AudioLDM 模型结构
AudioLDM 的整体结构如下图所示。
上图中的实线表示学习过程,虚线表示推理过程。
其独特之处在于,CLAP 用于训练和推理,训练时只使用语音数据,推理时使用文本数据。
使用 CLAP 的效果
对比语言-音频预训练(CLAP)是一种对比学习模式,可确保语音和文本之间的一致性。
来源:https://github.com/microsoft/CLAP
使用这种 CLAP 的主要好处之一是,它不仅能确保语音和文本之间的一致性,还能弥补训练数据的不足。这是因为在文本到数据领域,需要大量的文本数据对数据。在这种情况下,需要的是一组与语音数据绑定的文本。
然而,这种语音-文本对数据集很难收集,因此很难提高语音生成的准确性。因此,通过使用事先在大量数据上训练过的 CLAP,可以高效地获取跨模态信息,而无需在自己的数据上再次进行训练。
然后,LDM 以 CLAP 获取的音频和文本嵌入为条件。
通过 LDM 获取语音的潜在表征
潜在扩散模型(LDM)是一种能生成数据潜在表示的扩散模型。具体来说,VAE 编码器事先将数据转换为潜表征,并在扩散过程中将噪声添加到潜表征中。然后,在去噪过程中学习重建潜表征。
这样,就可以处理比原始数据维度更低的潜表征,并更高效地生成数据。顺便提一下,生成的潜表征最后可以通过 VAE 的解码器来提取生成的数据。
在本研究中,语音数据的旋律频谱图也是在训练过程中通过 VAE 压缩成潜表征的。在推理过程中,潜表征通过 VAE 解码器转换为 mel 频谱图。然后,mel-spectrogram 通过一个称为 Vocoder 的模块,输出原始语音数据。
语音数据扩展
在这项研究中,语音数据通过混音得到了增强,从而解决了语音数据不足的问题,并提高了模型的性能。
具体来说,新的语音数据 $x_{1,2}$ 是由现有的语音数据 $x_1$ 和 $x_2$ 根据以下公式生成的。
这里,$\lambda$是从贝塔分布$B(5, 5)$中采样的。与增强语音数据绑定的文本不需要,因为在训练过程中不会使用。
其他语音控制
一旦训练好 AudioLDM,各种任务(如内绘)就可以在零次拍摄中解决。此类任务的推理过程如下图所示。
在 (b) 内绘制和超分辨率中,可以修复音频的缺失部分,提高音频数据的分辨率。
在(c)项风格转换中,可以将 "平静的音乐 "转换为 "充满活力的音乐"。
评估测试
数据集
AudioLDM 研究使用了四个数据集:AudioSet (AS)、AudioCaps (AC)、Freesound (FS) 和 BBC 音效库 (SFX)。
AS 是一个大型数据集,包含 527 个标签和 5000 多个小时的音频,而 AC 是一个较小的数据集,包含约 49000 个音频片段和文本描述。不过,这些数据集主要是来自 YouTube 的音频,质量无法保证。
因此,我们从 FreeSound 和 BBC SFX 收集了数据,以添加高质量的音频数据。
AC 和 AS 被用来对模型进行评估,AC 中的每个音频片段都有五个文字说明,并随机抽取一个作为文字条件;AS 中则随机抽取 10% 的音频样本作为单独的评估集,并使用标签连接。
评估方法
该研究采用了一种全面的评估方法,包括客观和主观评估,以评估 AudioLDM 的性能。
以下评估指标用于客观评估
- 弗雷谢特距离 (FD)
- 起始分数(IS)
- kullback-leibler (KL) 分歧
主观评价由六位音频专家进行。具体来说,实验涉及回答以下问卷中有关整体语音质量(OVL)和文本相关性(REL)的问题。
在进行模型比较时,使用了相同的文本到音频 DiffSound 和 AudioGen 模型。
AudioLDM 在小型模型(AudioLDM-S)和大型模型(AudioLDM-L)上进行了训练。此外,AudioLDM-L-Full 模型也在所有数据集上进行了训练,这表明训练数据大小的影响已得到研究。
结果
比较评估的结果如下表所示。
总体而言,"AudioLDM-L-Full "的性能最好。这意味着,具有大量参数并在所有数据集上经过训练的 AudioLDM 是最准确的模型。
适合调节的数据
下表考察了在训练 AudioLDM 时,仅使用语音嵌入与同时使用文本和语音嵌入作为条件的性能差异。
结果表明,在学习过程中,音频信息比文字信息更有效。
基于这些结果,实际的 AudioLDM 训练也只使用 "CLAP 音频编码器获得的音频嵌入 "来调节 LDM。
取样步骤的适当数量
AudioLDM 采用 DDIM 作为采样方法。适当的 DDIM 步数可从下表中看出。
从上表可以看出,合适的取样步数在 100 到 200 步之间。
摘要
本研究提出了可根据文本提示生成语音的 AudioLDM;AudioLDM 在文本到音频领域实现了 SOTA。
这项研究面临的三大挑战是
- 生成声音的采样率不足以生成音乐。
- 每个模块单独训练,这可能导致错位
- 通过生成虚假音频信息传播虚假信息。
未来,他们需要探索更高的采样率和端到端微调等方法。
最后,AudioLDM 的源代码可在 GitHub 和 HuggingFace 上获取,感兴趣的人可以尝试在本地运行等。
与本文相关的类别