赶上最新的AI论文

AudioLDM]使用潜在扩散的文本到音频生成模型

AudioLDM]使用潜在扩散的文本到音频生成模型

扩散模型

三个要点
✔️ 使用纯语音数据训练 LDM 可提高计算效率
✔️ 使用 CLAP 可确保 "文本到语音的一致性",而无需使用配对数据

✔️ 只需使用训练好的 AudioLDM 即可执行各种零拍摄任务,无需微调

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
written by Haohe LiuZehua ChenYi YuanXinhao MeiXubo LiuDanilo MandicWenwu WangMark D. Plumbley
(Submitted on 29 Jan 2023 (v1), last revised 9 Sep 2023 (this version, v3))
Comments: Accepted by ICML 2023. Demo and implementation at this https URL. Evaluation toolbox at this https URL

Subjects: Sound (cs.SD); Artificial Intelligence (cs.AI); Multimedia (cs.MM); Audio and Speech Processing (eess.AS); Signal Processing (eess.SP)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

本研究提出了一个名为 "AudioLDM "的生成模型,它可以在单个 GPU 上根据文本提示生成高质量音频,例如,可以根据文本指令生成以下音频

  • 环境噪音
  • 动物的叫声
  • 人们在交谈
  • 音乐

AudioLDM 利用用于生成高质量图像的潜在扩散模型 (LDM) 生成具有连续潜在表征的语音。具体来说,它将基于 Mel 频谱的变异自动编码器 (VAE) 与基于对比语言-音频预训练 (CLAP) 的嵌入条件相结合,实现了高级文本条件下的语音生成。

以这种方式生成的音频可在下面的 AudioLDM 项目页面上查看。

项目官方网页

此外,研究还表明,训练有素的 AudioLDM 可用于执行以下语音操作,而无需进行微调。

  • 语音风格转换
  • 超分辨率(如视频)
  • 油画

让我们看看如何在 AudioLDM 模型结构中实现这些功能。

AudioLDM 模型结构

AudioLDM 的整体结构如下图所示。

上图中的实线表示学习过程,虚线表示推理过程。

其独特之处在于,CLAP 用于训练和推理,训练时只使用语音数据,推理时使用文本数据。

使用 CLAP 的效果

对比语言-音频预训练(CLAP)是一种对比学习模式,可确保语音和文本之间的一致性。

来源:https://github.com/microsoft/CLAP

使用这种 CLAP 的主要好处之一是,它不仅能确保语音和文本之间的一致性,还能弥补训练数据的不足。这是因为在文本到数据领域,需要大量的文本数据对数据。在这种情况下,需要的是一组与语音数据绑定的文本。

然而,这种语音-文本对数据集很难收集,因此很难提高语音生成的准确性。因此,通过使用事先在大量数据上训练过的 CLAP,可以高效地获取跨模态信息,而无需在自己的数据上再次进行训练。

然后,LDM 以 CLAP 获取的音频和文本嵌入为条件。

通过 LDM 获取语音的潜在表征

潜在扩散模型(LDM)是一种能生成数据潜在表示的扩散模型。具体来说,VAE 编码器事先将数据转换为潜表征,并在扩散过程中将噪声添加到潜表征中。然后,在去噪过程中学习重建潜表征。

这样,就可以处理比原始数据维度更低的潜表征,并更高效地生成数据。顺便提一下,生成的潜表征最后可以通过 VAE 的解码器来提取生成的数据。

在本研究中,语音数据的旋律频谱图也是在训练过程中通过 VAE 压缩成潜表征的。在推理过程中,潜表征通过 VAE 解码器转换为 mel 频谱图。然后,mel-spectrogram 通过一个称为 Vocoder 的模块,输出原始语音数据。

语音数据扩展

在这项研究中,语音数据通过混音得到了增强,从而解决了语音数据不足的问题,并提高了模型的性能。

具体来说,新的语音数据 $x_{1,2}$ 是由现有的语音数据 $x_1$ 和 $x_2$ 根据以下公式生成的。

这里,$\lambda$是从贝塔分布$B(5, 5)$中采样的。与增强语音数据绑定的文本不需要,因为在训练过程中不会使用。

其他语音控制

一旦训练好 AudioLDM,各种任务(如内绘)就可以在零次拍摄中解决。此类任务的推理过程如下图所示。

在 (b) 内绘制和超分辨率中,可以修复音频的缺失部分,提高音频数据的分辨率。

在(c)项风格转换中,可以将 "平静的音乐 "转换为 "充满活力的音乐"。

评估测试

数据集

AudioLDM 研究使用了四个数据集:AudioSet (AS)、AudioCaps (AC)、Freesound (FS) 和 BBC 音效库 (SFX)。

AS 是一个大型数据集,包含 527 个标签和 5000 多个小时的音频,而 AC 是一个较小的数据集,包含约 49000 个音频片段和文本描述。不过,这些数据集主要是来自 YouTube 的音频,质量无法保证。

因此,我们从 FreeSound 和 BBC SFX 收集了数据,以添加高质量的音频数据。

AC 和 AS 被用来对模型进行评估,AC 中的每个音频片段都有五个文字说明,并随机抽取一个作为文字条件;AS 中则随机抽取 10% 的音频样本作为单独的评估集,并使用标签连接。

评估方法

该研究采用了一种全面的评估方法,包括客观和主观评估,以评估 AudioLDM 的性能。

以下评估指标用于客观评估

  • 弗雷谢特距离 (FD)
  • 起始分数(IS)
  • kullback-leibler (KL) 分歧

主观评价由六位音频专家进行。具体来说,实验涉及回答以下问卷中有关整体语音质量(OVL)和文本相关性(REL)的问题。

在进行模型比较时,使用了相同的文本到音频 DiffSound 和 AudioGen 模型。

AudioLDM 在小型模型(AudioLDM-S)和大型模型(AudioLDM-L)上进行了训练。此外,AudioLDM-L-Full 模型也在所有数据集上进行了训练,这表明训练数据大小的影响已得到研究。

结果

比较评估的结果如下表所示。

总体而言,"AudioLDM-L-Full "的性能最好。这意味着,具有大量参数并在所有数据集上经过训练的 AudioLDM 是最准确的模型。

适合调节的数据

下表考察了在训练 AudioLDM 时,仅使用语音嵌入与同时使用文本和语音嵌入作为条件的性能差异。

结果表明,在学习过程中,音频信息比文字信息更有效。

基于这些结果,实际的 AudioLDM 训练也只使用 "CLAP 音频编码器获得的音频嵌入 "来调节 LDM。

取样步骤的适当数量

AudioLDM 采用 DDIM 作为采样方法。适当的 DDIM 步数可从下表中看出。

从上表可以看出,合适的取样步数在 100 到 200 步之间。

摘要

本研究提出了可根据文本提示生成语音的 AudioLDM;AudioLDM 在文本到音频领域实现了 SOTA。

这项研究面临的三大挑战是

  • 生成声音的采样率不足以生成音乐。
  • 每个模块单独训练,这可能导致错位
  • 通过生成虚假音频信息传播虚假信息。

未来,他们需要探索更高的采样率和端到端微调等方法。

最后,AudioLDM 的源代码可在 GitHub 和 HuggingFace 上获取,感兴趣的人可以尝试在本地运行等。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们