[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

对比学习 20/11/2023

三个要点
✔️ 使用 LLM 自动生成音乐标题
✔️ 解决音乐-文本对数据短缺问题
✔️ 创建 LP-MusicCaps --带语言的大规模音乐数据集

LP-MusicCaps: LLM-Based Pseudo Music Captioning
written by SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
(Submitted on 31 Jul 2023)
Comments: Accepted for publication at the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
Subjects: Sound (cs.SD); Information Retrieval (cs.IR); Multimedia (cs.MM); Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

研究大纲

本研究利用大规模语言模型（LLM）提出了一项为音乐曲目自动配字幕的任务。这项 "为音乐生成自然语言字幕 "的任务在音乐信息检索（MIR）中被称为 "音乐字幕"。

自动音乐字幕制作旨在为给定的音乐曲目生成 "自然语言描述"。例如，"Eminem "的 "Lose Yourself "就能生成这样的描述："旋律强劲有力，说唱歌曲韵味十足，令人印象深刻"。

首先，为了理解开展这项研究的目的，有必要了解一下现有研究存在的问题以及 "从文本生成音乐 "领域面临的挑战。

缺乏 "音乐/文字 "的配对数据是一个问题

在音乐字幕领域有许多现有研究，其中提出了 "曲目级字幕 "和 "播放列表级字幕"。然而，由于 "缺乏大型公共数据集"，所有研究都面临着准确性不足的挑战。

这种数据的缺乏也会导致文本到音乐模型中产生的音乐质量下降。

研究目标

为了解决这些数据短缺问题，本研究提出了一种使用 LLM 生成音乐字幕的方法。这项研究的主要目的是利用 LLM 生成语义和语法准确、词汇干净丰富的字幕，以解决数据短缺问题。

具体程序如下

利用 LLM 伪标签技术创建大型数据集 "LP-MusicCaps"。
在上述数据集上训练的基于变换器的音乐字幕模型。
通过零镜头和过渡学习进行评估。

让我们先来了解一下 LP-MusicCaps 这个大型音乐/文本配对数据集。

LP-MusicCaps 概览

该数据集是通过使用 LLM 从现有的音乐-文本数据集生成新的音乐-文本对而构建的。

使用的三个现有数据集包括

现有数据集	目录
MusicCaps (MC)。	包含 5521 个音乐数据，每个数据都由音乐专家 "标记 "并 "标注详细描述"。
Magnatune (MTT)。	包含 2.6 万个音乐片段，每个片段都标有体裁、乐器、声乐、情绪、感知节奏、来源和声学特征等特征
百万首歌曲数据集（MSD）。	包含 052 万个 30 秒片段和 1054 个标签词汇表，按流派、风格、乐器、人声、情绪、主题、文化等进行标记。

每个数据集都包含一首音乐的多个标签。例如，如下图底部 "方面列表示例 "所示。

来源：https://arxiv.org/abs/2301.11325

这是 MusicCaps 的一个示例。

这些标签被用于伪标注，增加了文本数据量，从而增加了配对数据的大小。在每个数据集中，平均每个音乐数据使用了 10.7、3.3 和 10.2 个标签来生成伪字幕。

三个最终产品如下

新数据集	目录
LP-MusicCaps-MC	使用 MC 标签伪标签创建；6K 音乐数据的 22K 文本。
LP-MusicCaps-MTT	通过使用 MTT 标签进行伪标注创建；22K 音乐数据的 88K 文本。
LP-MusicCaps-MSD.	使用 MSD 标签伪标签创建；2.2M 文本对应 0.5M 音乐数据。

顺便提一下，下表比较了音乐和音频领域的各种数据集，包括上述数据集。

LP-MusicCaps 中的三个数据集共产生 0.5 百万音乐数据和 2.2 百万文本数据。顺便提一下，表中的 "C/A "表示一个音乐数据对应的文本数据量。

接下来，让我们来详细了解一下在创建这些数据集过程中发挥作用的 "伪标签法"。

使用 LLM 的伪标记方法

使用 LLM 进行伪标记的要点如下。

使用现有音乐标签数据集中的 "标签数据"
添加任务说明
根据 LLM 中的提示输入 "标签数据 "和 "任务说明"
GPT-3.5 Turbo 用于 LLM

首先，将 "现有标签数据 "和 "任务指示 "作为提示输入 GPT-3.5 Turbo。这里的任务指示包括 LLM 的典型任务指示，例如 "描述这首歌曲 "或 "总结这首歌曲的内容"。

下图说明了这一过程。

这样，伪文本标签被生成并添加到新的数据集中，从而创建了一个大型数据集。

在这里，GPT-3.5 Turbo 预先使用大型数据集和巨大的计算能力进行了训练。此外，GPT-3.5 Turbo 还非常强大，因为每当发出指令时，它都会通过强化学习和人类反馈（RLHF）进行微调。

如何设计任务指令（提示）

作为提示输入 GPT-3.5 Turbo 的任务指令内容包括以下四项任务

写作
摘要
转述。
属性预测。

此外，每项任务指令的实际提示均采用以下标准格式。

写作：编写歌曲描述句子，包括以下属性：{输入标签} 。

摘要：请用一句话概括一首具有以下属性的歌曲。标签｝

仿写：写一个歌曲描述句子，包括以下属性。

属性预测：将答案写成以 new_attribute 和 description 为键的 Python 字典。对于 description，请写出包含以下属性和新属性的歌曲描述句子。关于描述，请写出包含以下属性和新属性的歌曲描述句子。

因此，GPT-3.5 Turbo 会将每个任务指令末尾带有附加 "标签 "的句子作为提示输入。以这种方式生成的句子举例如下

这是一个应用于 MusicCaps 的伪标签示例。顶部的 "输入标签 "是 MusicCaps 中包含的标签列表，底部的 "地面实况 "是 MusicCaps 中包含的长描述。

这样，一个大型的音乐和文本配对数据集--"LP-MusicCaps "伪文本--就诞生了。下一节将详细介绍如何评估该数据集的标题有效性及其结果。

对 LP-MusicCaps 标题进行客观评估

评估数据集

对 LP-MusicCaps 的评估是通过谷歌研究创建的 MusicCaps 数据集进行的。该数据集由三个部分组成

音乐数据
标签列表
长篇说明（由专家撰写）

如果将这三个元素的一个集合视为一个数据集，则它包含 5.5K 个数据。顺便提一下，每个音乐数据都有一个标签列表和一个长描述。

这个较长的描述也被用作标题的正确数据（正确标题）。

估值指数

对数据集的评估是通过测量生成的标题与正确标题之间的相似度来进行的，使用的客观指标包括

指示符	内涵
bleu1, bleu2, bleu3, bleu4	测量生成标题和正确标题之间的 n-gram 重叠，取决于 n-gram 的大小，例如，1-gram 表示 BLEU1，2-gram 表示 BLEU2，以此类推。
METEOR	以 n-gram 重复为基础，并考虑到单词对齐情况，以衡量准确率和召回率。
ROUGE-L.	测量生成标题和正确标题之间的最长共同子序列
BERT-S.	计算生成标题与正确标题之间的 BERT 嵌入式相似度。与 n-gram 指标相比，该指标对同义词、转述和词序变化的适应性更强，能更好地捕捉 "标题之间的语义相似性"。