赶上最新的AI论文

[MusicLDM] 低剽窃风险的文本到音乐模型

[MusicLDM] 低剽窃风险的文本到音乐模型

扩散模型

三个要点
✔️ 利用对比学习和潜在扩散模型的音乐生成模型
✔️ 将 AudioLDM 音频生成模型架构应用于音乐领域
✔️ 引入数据扩展策略以降低剽窃风险

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
written by Ke ChenYusong WuHaohe LiuMarianna NezhurinaTaylor Berg-KirkpatrickShlomo Dubnov
(Submitted on 3 Aug 2023)
Comments: IEEE International Conference on Acoustics, Speech, and Signal Processing、ICASSP 2024

Subjects: Sound (cs.SD); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM); Audio and Speech Processing (eess.AS)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

本研究提出了文本到音乐模式的传播模型 MusicLDM;MusicLDM 生成的音乐可在以下网站的官方项目页面上获取

资料来源:MusicLDM 项目页面。

让我们先来了解一下这项研究的背景。

研究背景

近年来,文本条件生成任务备受关注,并被应用于多种模式,包括文本到图像、文本到视频和文本到音频。特别是对于带有扩散模型的文本到音频,"AudioGen"、"AudioLDM "和 "Make-an-Audio "引起了广泛关注,其准确率之高令人惊讶。

近年来,使用扩散模型的 "文本到音乐 "模型也得到了积极的研究,并出版了许多高性能模型。

音乐世代面临的具体挑战

然而,在 "文本到音乐 "领域存在两大 "特定音乐挑战": 1.

  • 缺乏音乐-文本配对数据。
  • 人工智能生成的音乐存在无意剽窃的风险。

与文本-图像等其他模式相比,现有的文本-音乐配对数据相对匮乏,因此很难训练出高质量的条件模型。此外,由于音乐涉及许多不同的概念,如 "旋律"、"和声"、"节奏 "和 "音色",因此特别需要一个能很好反映这些概念的大型、多样化的训练集。

与文本到音乐生成相关的另一个问题是剽窃的风险和生成的输出缺乏新意。

这是因为音乐通常受版权法保护,生成与现有音乐过于相似的新音乐可能会导致法律问题。因此,开发既能生成各种新颖音乐,又能避免抄袭的文本到音乐模型非常重要,即使在相对较小的训练数据集上进行训练也是如此。

通过独特的数据扩展战略应对挑战

因此,本研究提出了两种新的混合策略,专门用于音乐生成。

  • 节拍同步音频混合(BAM)
  • 节拍同步潜伏混合(BLM)

每种方法都首先分析用于训练的音乐数据,对齐节拍,然后直接插值音频(BAM)或编码音频,然后在潜空间插值(BLM)。

然后在扩展训练数据上对模型进行训练。然后在预先训练好的 CLAP 上进行测试,以检验模型生成的音乐是否抄袭和新颖。

实验表明,这种混音增强策略大大降低了生成输出中的剽窃风险。此外,混音不仅保持了音乐和文本的完整性,还提高了音乐音频的整体质量。

MusicLDM 模型结构

首先,让我们来看看 MusicLDM 的架构。

该模型的架构基于用于图像生成的 "稳定扩散 "架构和用于声音生成的 "AudioLDM "架构,并根据音乐领域进行了调整。

具体来说,它由以下模块组成。

  • 潜在扩散模型中的 "U-Net"。
  • VAE,将输入语音压缩为潜在表达+将潜在表达转换为语音。
  • Hifi-GAN 可将熔谱图转换为音频波形。
  • CLAP",一种用于嵌入生成的对比性语音到文本学习模型。

训练程序首先将 STFT 和 MelFB 应用于输入语音波形 $x$,并将其转换为 Mel 频谱图。梅尔频谱图被视为图像数据,并通过 VAE 编码器计算语音的潜在表示。将该潜在表示法输入 U-Net 后,便可应用扩散模型。

这样,在训练过程中,输入的语音或文本会被 CLAP 嵌入,而嵌入的表示则作为条件传递给 U-Net。在推理过程中,只使用文本作为输入。

重新学习每个单元

由于 CLAP(本模型中也使用了 CLAP)是在音频(由声音事件、音效和自然声音表示)和文本的配对数据集上预先训练的,因此 CLAP 在 "文本-音乐配对数据集 "上进行了再训练,以提高音乐数据和相应文本的一致性。

Hifi-GAN 声码器还利用音乐数据进行了重新训练,以实现从熔体频谱图到音乐波形的高质量转换。

改进了 AudioLDM 调节功能

在参考源 AudioLDM 中,模型在学习过程中只将音频嵌入数据作为条件。这种音频到音频的学习本质上是文本到语音生成的近似。

然而,仅从音频到音频的训练中很难生成连贯的文本到音频输出,因为 CLAP 的训练是为了联合学习文本和音频嵌入,但并没有明确强制嵌入在潜在空间中的分布相似。.

此外,当可用的文本-音乐配对数据有限时,问题可能会更加严重。换句话说,仅仅依靠音频嵌入的条件,意味着现有的文本数据被忽视,数据集的全部潜力没有得到开发。

因此,本研究采用了两种方法

  • 即使在学习过程中也能运行文本到音频。
  • 音频到音频经过训练和微调,可生成文本嵌入条件。

避免抄袭问题的数据扩展策略

如前所述,本研究采用了一种独特的数据扩展技术,以避免因缺乏音乐-文本配对数据而产生的抄袭风险,以及生成的音乐被抄袭的风险。

策略是按一定比例混合歌曲 $x_1$ 和 $x_2$,如上图中间所示。

这里,在数据扩展过程中,如上图左侧所示,节拍变换器会首先将节奏相同的歌曲组合在一起。这样做是为了避免在混合两个不同节奏(每分钟节拍数)的音乐数据时,扩展后的数据出现混乱。

然后,通过比较下拍图,对准两首歌曲数据各自的起始位置。

  • 节拍同步音频混合(BAM)
  • 节拍同步潜伏混合(BLM)

节拍同步音频混合(BAM)

BAM 根据以下公式使用歌曲 $x_1$ 和 $x_2$ 生成新的歌曲数据 $x$。

$x=\lambda x_1+(1-\lambda) x_2$.

此时,$\lambda$ 从 $Beta(5, 5)$ 中随机抽样。

节拍同步潜伏混合(BLM)

BLM 是一种与 BAM 相似的策略,但不同之处在于它分别使用了歌曲 $x_1$ 和 $x_2$ 的潜变量。具体来说,歌曲 $x_1$ 和 $x_2$ 通过 VAE 编码器转换为 $y_1$ 和 $y_2$。然后根据以下公式,利用这两个潜变量为新的歌曲数据生成一个新的潜变量 $y$。

$y=\lambda y_1+(1-\lambda) y_2$.

这样生成的 $y$ 通过 VAE 解码器转换成熔谱图,然后通过 Hifi-GAN 生成新的歌曲数据 $x$。

BAM 与 BLM 的区别

上图右侧显示了使用 BAM 和 BLM 时语音信号特征空间之间的插值。在语音信号的特征空间中,"●"代表音乐数据的特征点,"△"代表其他语音信号的特征点,如自然声、语音活动和噪声等。

在这里,VAE 的目的是学习最能代表原始数据的潜变量分布,并将原始特征空间转化为低维流形。该流形旨在捕捉音乐数据的基本结构。

因此,这个流形中的任何特征点都可以被视为音乐的有效表达。

如右上图所示,BAM 将语音空间中的两个点线性组合,形成红线上的一个新点;蓝线表示的 BLM 执行类似操作,但成为 VAE 变换潜空间中的一个新点,并解码为语音空间中的音乐流形。

BAM 和 BLM 的利弊

BAM 和 BLM 各有优缺点。

BAM 对原始特征空间进行混合处理,以实现特征点之间的平滑插值,但无法确保音乐流形中的音乐样本合理。

与此相反,BLM 在音乐多样性的范围内进行强化,并产生稳健、多样的潜表征。不过,BLM 的计算成本很高,因为它需要一个 VAE 解码器,并通过 Hifi-GAN 将潜在特征计算回语音。此外,如果定义不清或存在其他潜在特征,BLM 在 VAE 中可能无效。

试验

生成能力成果

使用 FD、IS 和 KL 对 MusicLDM 音乐生成质量进行了评估。

FD 是 VGGish 和 PANN 的语音嵌入模型,用于测量生成音乐与目标音乐之间的相似度;IS 用于测量生成音乐的多样性和质量;KL 用于评估单个生成音乐与真实音乐之间的平均相似度。

在所有指标上,MusicLDM 的表现都优于其他基准模型。

文本-音乐一致性+数据扩展策略的有效性

文本和音乐一致性测试计算的是从测试集得出的真实文本嵌入和从模型生成的音乐中得出的音频嵌入之间的内积。文本和音频嵌入由 CLAP 模型计算。

数据扩展策略的有效性测试还衡量 "模型直接从训练集中复制样本的程度"。

要验证这一点,首先要计算每个生成音乐输出的音频嵌入与训练集中所有音频嵌入之间的点积,并返回最大值,即训练集中的最近邻相似度。

然后计算近邻相似度大于或等于阈值的生成输出比例。如果阈值为 0.9,SIMAA@90;如果阈值为 0.95,SIMAA@95。该比率越低,剽窃的风险就越低。

下面两幅图分别显示了相似度得分较高(上图)和较低(下图)的例子。

相似度高的例子

相似性得分低的例子

下文的 "目标指标 "显示了这些文本-音乐一致性测试的结果以及数据扩展策略的有效性。

原始 MusicLDM(未混合)获得了最高的文本到语音相似度得分,但也获得了最高(最差)的最接近语音相似度得分。这表明没有混合的模型倾向于复制训练数据。

采用简单混合策略的 MusicLDM 获得了最低的相似度得分,但文本到语音的一致性较差。

采用 BAM 和 BLM 的 MusicLDM 在语音相似度得分和文本到语音的相似度之间实现了良好的平衡。

总之,混音策略作为一种数据扩展技术,可以有效地帮助模型生成更新的音乐,但简单的混音会降低音乐生成的质量。

BLM 被认为是最有效的混合策略,尤其是在生成语音的质量、相关性和新颖性方面。这表明,在潜空间混合比在直接语音空间混合更有效。

主观测试结果

除了基于客观指标的评估外,该研究还包括对四种模型(MuBERT、原始 MusicLDM 和 BAM 或 BLM 策略)的主观听力测试,以主观评估生成音乐的实际听觉体验。

在这里,15 名受试者被要求聆听从测试集中随机抽取的六首生成音乐。受试者被要求对音乐的质量、与文本的一致性和音乐性进行评分。

结果如下图右侧的主观听力测试所示。

与 MuBERT 或原始 MusicLDM 样本相比,使用 BAM 或 BLM 混合策略的 MusicLDM 样本具有更好的文本完整性和质量。

MuBERT 采样由真实音乐采样合成,以达到最高的音乐性分数。

摘要

本文介绍了文本到音乐模型的 MusicLDM。实验结果表明,BLM 是一种有效的文本到音乐混合策略。

训练数据质量不高也是这项研究面临的一个挑战。

MusicLDM 是在采样率为 16 kHz 的音乐数据上进行训练的,而大多数标准音乐作品的采样率为 44.1 kHz。这种低采样率的训练数据也降低了音乐的质量。此外,再加上 Hifi-GAN 声码器在高采样率下的性能较差,这阻碍了文本到音乐的实际应用,需要进一步改进。

此外,虽然节拍信息对音乐配准很重要,但在数据扩展策略中还可以考虑其他音乐因素,例如调号和乐器配准。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们