Moûsai] 从文本输入生成高质量音乐的扩散模型。

扩散模型 04/10/2023

三个要点
✔️ 从文本生成音乐的扩散模型
✔️ 可实时生成持久、高质量的音乐
✔️ 介绍一种名为扩散幅度自动编码器的新扩散模型

Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion
written by Flavio Schneider, Zhijing Jin, Bernhard Schölkopf
(Submitted on 27 Jan 2023 (v1), last revised 30 Jan 2023 (this version, v2))
Comments: Music samples for this paper: this https URL all music samples for all models: this https URL and codes: this https URL
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

本文介绍的 Moûsai 是一种根据文字提示生成音乐的扩散模型。例如，在这个模型中，输入"非洲鼓，节奏，（豪华版），4 之 2"这样的提示，就会输出非洲鼓的节奏。

这个 Moûsai 模型也被用作《稳定扩散》的音频版《稳定音频》的基础。此外，它还是一项备受瞩目的研究，因为它使用了近年来成为热门话题的深度生成式人工智能模型--Diffusion 模型。

首先，在了解 Moûsai 的细节之前，让我们来看看音乐生成领域的一些最新趋势和挑战。

近年来音乐创作的趋势

近年来，图像和文本领域出现了生成式人工智能模型，如稳定扩散和 GPT。在此背景下，用于音乐生成的人工智能也越来越受到关注。

在音乐生成人工智能领域，"基于变换器的自回归模型 "一直是主流，但最近也开始流行使用扩散模型生成音乐。本研究采用了最新的扩散模型。

在讨论此类研究的重要性时，有必要了解音乐生成领域所面临的挑战。首先，让我们回顾一下音乐生成所特有的挑战。

音乐生成的挑战

通过生成式人工智能生成音乐存在以下问题

无法生成超过一分钟的音乐。
音质较低。
生成的音乐总是感觉一样（没有多样性）

换句话说，传统的生成模型在尝试生成超过一分钟的音乐时，首先会出现音乐中断或音质低劣的问题。因此，本研究旨在解决这些问题。

摩赛与传统音乐生成模式的对比

接下来，让我们看看这项研究在音乐生成领域的地位。下表是 "Moûsai "与传统音乐生成模式的比较。

该表的条目（列名）如下。

型号：型号名称
采样率：采样率（表示音质，越高越好）
Ctx.Len：产生音乐的时间
输入：输入类型
音乐（多样化）：产生的音乐类型
示例：生成音乐的示例
Infer.Time：生成所需的时间（推理时间）
数据：数据集的大小

表格最下面一行是 Moûsai。这一行显示 Moûsai 的特点如下

可生成 48 kHz 及更高音质的音乐
可生成超过一分钟的音乐。
可以生成各种类型的音乐。
输入类型为文本。

从这些特点来看，本研究中的 Moûsai 可以说是解决了音乐生成领域问题的典范。至于 Moûsai 究竟是如何解决这些问题的，我们将在下一节中加以说明。

Moûsai 模型结构

在本节中，我们将首先介绍 Moûsai 的整体模型，然后详细解释各个组成部分。

整体音乐制作过程

本研究的整体音乐生成过程（推理过程）如下�

该图的左上角显示了通过文本提示输入的文本。输入文本提示后，音频最终会通过每个阶段输出，如右下角所示。音乐生成的实际过程如下。

输入文本提示。
提示嵌入由 T5（基于变换器）生成
从噪声中生成潜变量（Latent），但要受其嵌入的限制。
根据生成的潜在变量从噪声中生成音频。

该模型的组成部分也如下。

文本编码器（上）。
扩散发生器（中型）。
扩散解码器（如下）。

此外，作者还将上述要素结合起来，描述如下。

扩散生成器+扩散解码器=扩散幅度自动编码器（第二阶段）
TextEncoder+DiffusionGenerator=Latent text-to-audio Diffusion（第 1 阶段）

这使得 Moûsai 成为一个两阶段的级联模型。在接下来的章节中，我们将对每个阶段进行更详细的探讨。在此过程中，对应关系有些复杂，我们将结合整个模型进行解释。

扩散幅度自动编码器（第 2 阶段）

第一步是扩散幅度自动编码器。这是 DiffusionGenerator 和 DiffusionDecoder 组合为 "实际输出音频 "的阶段，也是整个流程的最后阶段。它在前面提到的 "音乐实际生成前的流程 "中扮演着 "步骤 3 → 步骤 4 "的角色。

扩散幅度自动编码器是扩散自动编码器的扩展版本，扩散自动编码器是一种扩散模型，它从某些数据中确定一个潜变量，并根据该潜变量在反扩散过程中对其进行去噪处理。扩散自动编码器是一种扩散模型，它能从某些数据中找到一个潜变量，并根据该潜变量在反扩散过程中进行去噪处理。

扩散幅度自动编码器的训练过程如下。

在这里，原始音频通过输入 STFT 变换转换为频谱图，其幅度通过一维卷积编码器获得潜变量。同时，原始音频通过扩散过程进行噪声处理，并通过 UNet 去噪，以重建原始音频。在此过程中，从前面描述的频谱图中创建的潜变量被用作反向扩散过程中去噪的条件。

扩散幅度自动编码器与整个 Moûsai 模型中下面的蓝色方框相对应。

这就是扩散幅度自动编码器的学习过程，相当于 Moûsai 的第二阶段。在这里，为了创建作为去噪条件的 "潜变量"，有必要考虑以提示文本嵌入为条件的扩散模型。下一节将对此进行讨论。

潜文本到音频扩散（第 1 阶段）

下一步是文本到音频的潜变量扩散。这是文本编码器（TextEncoder）和扩散生成器（DiffusionGenerator）结合的阶段，也是 "找到潜在变量以进入第二步 "的阶段。这在上述 "实际音乐生成流程 "中扮演着 "步骤 1 到步骤 3 "的角色。

这种潜文本到音频扩散模型是潜扩散模型的扩展版本，也是稳定扩散中使用的一种技术。具体来说，它是一种通过 VAE 获取数据集的潜变量，并对潜变量应用扩散和反扩散过程的扩散模型。

潜文本到音频扩散的学习过程如下。

首先，与之前一样，通过 STFT 变换将原始音频转换为频谱图，然后将幅度通过一维卷积编码器获得潜变量。同时，通过基于变换器的 T5 为文本提示创建文本嵌入。

然后，潜变量在扩散过程中被噪声化，再通过 UNet 去噪，最后重建原始潜变量。在此过程中，前面提到的文本嵌入被用作反向扩散过程中去噪的条件。

文字到音频的潜在扩散对应于整个 Moûsai 模型中下面的蓝色方框。

这就是潜文本到音频扩散的学习过程。

评估测试

通过建立我们刚才看到的模型，我们已经解决了音乐生成的具体问题。但我们如何对 Moûsai 制作的音乐进行量化评估呢？

本节介绍作者在本研究中进行的实验。

数据集

在介绍研究的实验细节之前，我们首先简要介绍一下所使用的数据集。

本研究共使用了 2500 小时的音乐数据（所使用音乐的详细信息不详）。此外，还使用了与这些音乐作品相对应的文本。这些文本包括歌名、艺术家姓名和流派等元数据。

多样性和文本相关性评估

首先，为了量化评估 Moûsai 产生的音乐的 "多样性 "和 "文本与歌曲的相关性"，作者对三名受试者进行了心理实验。

在具体实验方面，前两个模型 "Moûsai "和 "Riffuion "用相同的提示生成四种音乐流派。这次使用了以下提示。

受试者被要求 "聆听生成的音乐，并将每首歌正确归入四种类型中的一种"。下表显示了受试者正确识别每个模型生成的音乐类型的次数。

左侧的 Moûsai 结果表明，由于混淆矩阵对角线分量的值较高，"Moûsai 生成的音乐更能正确分类为不同类型"。另一方面，右侧 Riffusion 的结果是 "所有歌曲听起来都很流行"。

简而言之，如果你制作的音乐是嘻哈音乐，你就希望听众能认出音乐的流派是嘻哈，Mousai 就做到了这一点，但就 Riffusion 而言，无论你的目标是哪种音乐流派，听起来都是流行音乐。流行。

这表明，Moûsai "在音乐创作方面更迅速，更能捕捉类型"。

音质评估

然后，作者评估了 "真实音乐数据旋律谱图 "与 "Moûsai 生成的音乐旋律谱图 "之间的一致性，以评估 Moûsai 输出音乐的音质。结果如下。

上一行是 "真实音乐数据的旋律谱图"，下一行是 "Moûsai 生成的音乐旋律谱图"。结果表明，Moûsai 的旋律谱图确实很好地代表了真实的旋律谱图。

因此，Moûsai 显然可以用来生成与真实音乐质量相同的音乐。

摘要

在这篇文章中，我们介绍了音乐生成的扩散模型 Moûsai。虽然有许多其他人工智能可以根据文本生成音乐，但我们认为，与它们相比，Moûsai 的质量是顶级的。此外，本文是一篇硕士论文，但即便如此，它还是显示出了很高的质量。

不过，正如 "未来工作 "中所描述的，我们也认为文本以外的条件（例如通过哼唱产生音乐）也可能有用。

最后，我们还提供了这项研究的源代码，鼓励有兴趣的人去触摸它。

与本文相关的类别

Nakata