【MusicLDM】盗作のリスクが低いText-to-Musicモデル

Diffusion Model 2024年01月22日

3つの要点
✔️ 対照学習とLatent Diffusion Modelsを活用した音楽生成モデル
✔️ 音声生成モデル「AudioLDM」のアーキテクチャを音楽分野に応用
✔️ 盗作リスクを減らすデータ拡張戦略を導入

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
written by Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
(Submitted on 3 Aug 2023)
Comments: IEEE International Conference on Acoustics, Speech, and Signal Processing、ICASSP 2024
Subjects: Sound (cs.SD); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM); Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

本研究では、Text-to-Musicモデルの拡散モデル「MusicLDM」が提案されました。MusicLDMによって生成された音楽は、以下の公式プロジェクトページで視聴できます。

出典：MusicLDMのプロジェクトページ

まずは、本研究の背景から見ていきましょう。

研究背景

テキスト条件による生成タスクは近年注目を集めており、Text-to-Image、Text-to-Video、Text-to-Audioなど、さまざまなモダリティに適用されています。特に、拡散モデルによるText-to-Audioでは、「AudioGen」や「AudioLDM」、「Make-an-Audio」などが注目されており、その精度の高さに驚きを隠せません。

また、拡散モデルを用いたText-to-Musicモデルも近年盛んに研究されており、数々の高性能モデルが公開されています。

音楽生成に特有の課題

しかし、そんなText-to-Music分野には、主に以下の2つの「音楽特有の課題」があります。

音楽-テキストのペアデータ不足
AIによって生成された音楽の、意図しない盗作リスク

Text-to-Imageのような他のモダリティと比較すると、利用可能なText-Musicのペアデータは比較的少なく、高品質の条件付きモデルを学習することが困難です。また、音楽には「メロディ」「ハーモニー」「リズム」「音色」など、異なる多くの概念を含むため、それらを上手く反映した、大規模で多様な学習セットが特に必要です。

さらに、Text-to-Music生成に関連する懸念事項として、生成された出力における盗作や新規性の欠如のリスクがあります。

というのも、音楽は著作権法で保護されていることが多く、既存の音楽とあまりに似ている新しい音楽を生成すると、法的な問題に発展する可能性があります。そのため、比較的小規模な学習データセットで学習した場合でも、盗作を回避しつつ、新規性のある多様な音楽を生成できるText-to-Musicモデルを開発することが重要になるのです。

独自のデータ拡張戦略により課題解決

そこで本研究では、音楽生成のために特別に設計された、2つの新しいミックスアップ戦略が提案されました。

Beat-Synchronous Audio Mixup (BAM)
Beat-Synchronous Latent Mixup (BLM)

それぞれ、まず学習に使う音楽データを分析し、ビートを揃えてから、音声を直接補間するか（BAM）、あるいはエンコードしてから潜在空間で補間します（BLM）。

そうして拡張した学習データで、モデルを学習します。そして、そのモデルによって生成された音楽の盗用と新規性をテストするために、事前学習済みのCLAPでテストします。

実験では、このようなミックスアップ増強戦略が、生成された出力における盗作リスクを大幅に削減することが分かっています。さらに、ミックスアップによって、音楽とテキストの整合性を保つだけでなく、全体的な音楽オーディオの品質も向上させることができたそうです。

MusicLDMのモデル構造

まずは、MusicLDMのアーキテクチャを見ていきましょう。

このモデルは、画像生成の「Stable Diffusion」と、音声生成の「AudioLDM」のアーキテクチャを、音楽ドメインに適応させ構築したアーキテクチャです。

具体的には、以下のようなモジュールで成り立っています。

Latent Diffusion Modelの役割を果たす「U-Net」
入力音声を潜在表現に圧縮+潜在表現から音声に変換する「VAE」
メルスペクトログラムを音声波形に変換する「Hifi-GAN」
埋め込み生成のための、音声-テキストの対照学習モデル「CLAP」

学習手順としては、まず入力の音声波形$x$に対して、STFTとMelFBを適用し、メルスペクトログラムに変換します。そのメルスペクトログラムを画像データとして扱い、VAEエンコーダに通すことで音声の潜在表現を計算します。その潜在表現をU-Netに入力することで、拡散モデルを適用しているのです。

その際、学習中は入力音声またはテキストをCLAPによって埋め込み、その埋め込み表現をU-Netに条件として渡します。推論時は、入力はテキストのみとなります。

各モジュールの再学習

本モデルでも用いているCLAPは、サウンドイベント、効果音、自然音に代表される音声と、テキストとのペアデータセットで事前学習されているため、CLAPを「テキストと音楽のペアデータセット」で再学習し、音楽データと対応するテキストの整合性を向上させています。

また、Hifi-GANボコーダを音楽データで再学習させ、メルスペクトログラムから音楽波形への高品質な変換を実現しています。

AudioLDMの条件付けの改良

ここで、参考元のAudioLDMでは、学習プロセス中の条件として、モデルには音声埋め込みデータしか与えられていません。このようなAudio-to-Audioの学習は、本質的にテキストから音声への生成の近似です。

ただ、CLAPはテキストと音声の埋め込みを合同で学習するように訓練されているが、潜在空間において埋め込みが同様に分布することを明示的に強制していないため、Audio-to-Audioの訓練のみで首尾一貫したText-to-Audioの出力を生成することは困難です。

さらに、利用可能なテキスト-音楽のペアデータが限られている場合、この問題はより深刻になるでしょう。つまり、音声埋め込みによる条件のみに頼ることは、利用可能なテキストデータを無視することになり、データセットの可能性をフルに活用できていないことを意味します。

そこで、本研究では、以下の2つのアプローチを実践しています。

学習中においてもText-to-Audioを実行
Audio-to-Audioで学習し、テキスト埋め込み条件生成のためにファインチューニング

盗作問題を避けるデータ拡張戦略

先述の通り、本研究では音楽-テキストのペアデータ不足や、生成された音楽の盗用リスクを避けるために、独自のデータ拡張技術が用いられています。

上の真ん中の図のように、楽曲$x_1$と楽曲$x_2$を、一定の割合でミックスする戦略がとられています。

ここで、データ拡張の際に上図左のように、まずBeat Transformerによって同じテンポ同士の楽曲でグループ分けします。異なるテンポ（1分あたりの拍数）を持つ2つの音楽データをミックスする場合、拡張されたデータがカオスとなることを避けるためです。

そして、2つの楽曲データのそれぞれの開始位置は、ダウンビートマップを比較することで整列されています。

Beat-Synchronous Audio Mixup (BAM)
Beat-Synchronous Latent Mixup (BLM)

Beat-Synchronous Audio Mixup (BAM)

BAMでは、楽曲$x_1$と楽曲$x_2$を用いて、以下の数式に従い、新たな楽曲データ$x$を生成します。

$x=\lambda x_1+(1-\lambda) x_2$

この時、$\lambda$は$Beta(5, 5)$からランダムにサンプリングされます。

Beat-Synchronous Latent Mixup(BLM)

BLMはBAMと似た戦略ですが、異なるのは楽曲$x_1$と楽曲$x_2$の、それぞれの潜在変数を用いる点です。具体的には、楽曲$x_1$と楽曲$x_2$をVAEのエンコーダを通して、$y_1$と$y_2$に変換します。その後、その2つの潜在変数を用いて、新たな楽曲データの潜在変数$y$を、以下の数式に従って生成します。

$y=\lambda y_1+(1-\lambda) y_2$

そうして生成した$y$を、VAEデコーダに通してメルスペクトログラムに変換し、それをHifi-GANに通すことで、新たな楽曲データ$x$を生成します。

BAMとBLMの違い

上図右は、BAMとBLMを用いた場合の、音声の特徴空間間の補間を示す。音声信号の特徴空間において、"●"は音楽データの特徴点を表し、"△"は自然音、音声活動、雑音など他の音声信号の特徴点を表しています。VAEの事前学習プロセスでは、音楽データを符号化および復号化するための潜在空間が構築されます。

ここで、VAEの目的は、元のデータを最もよく表現できる潜在変数の分布を学習し、元の特徴空間を低次元の多様体に変換することです。この多様体は、音楽データの基本構造を捉えるように設計されています。

したがって、この多様体内のどの特徴点でも、音楽の有効な表現とみなされます。

上図右に示すように、BAMは音声空間の2点を線形結合して、赤い線上の新しい点を形成します。BLMは青い線で表され、同様の操作を行いますが、VAE変換された潜在空間内の新しい点になり、音声空間の音楽多様体にデコードされます。

BAMとBLMの長所・短所

BAMとBLMには、それぞれ長所と短所があります。

BAMは元の特徴空間にミックスアップを適用し、特徴点間のスムーズな補間を実現しますが、音楽多様体の中にある妥当な音楽サンプルを、確保することができません。

BLMは反対に、音楽多様体内を補強し、ロバストで多様な潜在表現を生成します。しかし、BLMはVAEデコーダーとHifi-GANを経由して潜在的特徴を音声に戻す計算を必要とするため、計算コストが高くなるでしょう。さらに、VAEにおいて、定義が不十分であったり、他の潜在的な潜在的特徴が存在する場合、BLMは有効でない可能性があります。

実験

生成能力の結果

MusicLDMの音楽生成品質は、FD、IS、KLを使用して評価されました。

FDはVGGishとPANNの音声埋め込みモデルで、生成音楽とターゲットの類似性を計測し、ISは生成された音楽の多様性と品質を、KLは個々の生成音楽と実音楽の平均類似性を評価します。

あらゆる指標において、MusicLDMは他のベースラインモデルよりも、高い性能を示しています。

テキスト-音楽の整合性＋データ拡張戦略の効果

テキストと音楽の整合性テストでは、テストセットから得られた真のテキスト埋め込みと、モデルによって生成された音楽から得られた音声埋め込みの間の内積を計算しています。テキストと音声の埋め込みは、CLAPモデルで算出されています。

また、データ拡張戦略の効果テストでは、「モデルが学習セットからサンプルを直接コピーしている程度」を測定しています。

まず、生成された各音楽出力の音声埋め込みと、トレーニングセットのすべての音声埋め込みとの間のドット積を計算し、最大値、つまりトレーニングセット内の最近傍の類似度を返すことで、これを検証しています。

次に、生成された出力のうち、最近傍が閾値以上の類似度を持つ出力の割合を計算します。これを最近傍音声類似度比と呼び、閾値が0.9の場合はSIMAA@90、0.95の場合はSIMAA@95となります。この比率が低ければ低いほど、盗作のリスクは低くなります。

以下の2つの図は、類似スコアが高い例（上図）と低い例（下図）のペアを示しています。

類似スコアが高い例。

類似スコアが低い例。

これらのテキスト-音楽の整合性のテストや、データ拡張戦略の効果テストの結果は、以下のObjective Metricsの通りです。

オリジナルのMusicLDM（ミックスアップなし）は、最も高いテキスト-音声類似性スコアを達成しましたが、最も高い（最悪の）最も近い音声類似度スコアも示しました。これは、ミックスアップなしのモデルが、学習データをコピーする傾向があることを示しています。

シンプルなミックスアップ戦略を使用したMusicLDMは、最も低い類似スコアを達成しましたが、テキスト-音声の整合性が低いです。

BAMとBLMを使用したMusicLDMは、音声類似度スコアとテキスト-音声類似度のバランスが良いです。

全体として、ミックスアップ戦略は、モデルがより新しい音楽を生成するためのデータ拡張技術として効果的ですが、シンプルなミックスアップは生成品質を低下させる可能性があります。

BLMは特に品質、関連性、生成音声の新規性の面で、最も効果的なミックスアップ戦略とされています。これは、潜在空間でのミックスが、直接音声空間でのミックスよりも効率的であることを示しています。

主観テストの結果

本研究では、客観的な指標に基づく評価だけでなく、MuBERT、オリジナルのMusicLDM、BAMまたはBLM戦略の4つのモデルについて、主観的なリスニングテストを行い、生成された音楽の実際の聴感を主観的に評価しています。

ここでは、15人の被験者に、テストセットからランダムに選んだ、6つの生成された音楽を聴いてもらっています。被験者には、音楽の質、テキストとの整合性、音楽性の観点から、音楽を評価することが求められています。

結果は、下図の右側のSubjective Listening Testの通りです。

BAMまたはBLMミックスアップ戦略を用いたMusicLDMのサンプルは、MuBERTやオリジナルのMusicLDMのサンプルよりも優れたテキスト整合性と品質を達成していることが分かります。

MuBERTのサンプルは、実際の音楽サンプルから合成されているため、最高の音楽性のスコアを達成しています。

まとめ

本記事では、Text-to-MusicモデルのMusicLDMについてご紹介しました。実験結果より、BLMがText-to-Musicのミックスアップ戦略として、有効であることが示されています。

また、本研究の課題として、学習データの品質の低さが示唆されています。

MusicLDMは、サンプリングレート16kHzの音楽データで学習されているが、標準的な音楽制作のほとんどは44.1kHzです。このように学習データのサンプリングレートが低いために、生成される音楽の品質も落ちてしまいます。加えて、Hifi-GANボコーダーの高サンプリングレートでの性能低下と結びついて、実用的なText-to-Musicの応用を妨げるため、さらなる改善が必要となるでしょう。

さらに、データ拡張戦略の際に、ビート情報は音楽のアライメントにとって重要ですが、調号や楽器のアライメントなど、他の音楽的要素も考慮する余地があります。