【CLAP】音声とテキストの対照学習モデル

Contrastive Learning 2023年12月21日

3つの要点
✔️ 音声とテキストの対照学習モデルを紹介
✔️ 大規模なキャプション付き音声データセットも公開
✔️ Text-to-Audio検索や音声分類においてSoTAを達成

Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
written by Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov
(Submitted on 12 Nov 2022 (v1), last revised 8 Apr 2023 (this version, v3))
Comments: Published on arxiv.
Subjects: Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、画像分野では、Contrastive Language-Image Pretraining (CLIP) と呼ばれる、対照学習モデルが提案されました。これは、テキストと画像を共有潜在空間に投影し、両者の対応関係を学習することで、Text-to-ImageやImage-to-Textなどに応用できる技術です。

本研究のContrastive Language-Audio Pretraining（CLAP）は、このCLIPを音声分野に応用したモデルです。

ここで、テキストや画像と並び、音声も最も重要なモダリティの一つです。そのため、大量のデータを必要とせずとも、音声データの情報を取得できるモデルの必要性が高まってきます。

これまでの研究でも、音声とテキストの対照学習が提案されてきましたが、どれも不完全なものでした。その直接的な原因とされているのは、主に以下の4点です。

音声とテキストのペアデータの不足
エンコーダとモデルの選択が不適切
可変長の音声データの処理が困難
下流のタスクへの汎化能力の欠如（Text-to-Audioのみ）

本研究では、これらの問題を解決するために、大規模データセットと対照学習モデルの構築に取り組んでいます。

まずは、本研究で構築されたデータセット「LAION-Audio-630K」についてご紹介します。

大規模データセット「LAION-Audio-630K」の構築

音声とテキストのペアデータ不足を解消するために、著者らは独自の方法でデータセット「LAION-Audio-630K」を構築し、これをモデルの学習に用いています。このデータセットには、合計633,526データ（総4,325.39時間）ほど含まれており、本論文の公開時点では最大のサイズです。

これまでに公開されたデータセットとLAION-Audio-630Kのサイズは、以下の表で比較されています。

はじめに、一般に公開されている8つのソースから「人間の活動」「自然音」「効果音」を含む音声データと、それに関連するテキスト説明が収集されました。

各ソースに関する情報や、取得したデータは、以下の表に記載されています。

また、以下の図は、上記のソースの「Epidemic Sound」と「Freesound」における、音声データの「データの長さ」の分布を示しています。

この分布からも分かる通り、音声の場合、データによって長さにバラツキがあるのです。このバラツキが大きいことが、学習を困難にさせる要因になります。というのも、画像の場合だと、学習に使うすべての画像データを、一律のサイズに整えれば問題ないですが、音声の場合だと、ひと工夫必要になります。

CLAPのモデル構造

ここでは、CLAPのモデル構造について解説します。モデル構造は、以下の通りです。

まず、音声とテキストの生データを、それぞれ以下のエンコーダによって埋め込みます。

音声エンコーダ	テキストエンコーダ
・PANN（CNNベースモデル）・HTSAT（transformerベース）	・CLIP transformer（CLIPのテキストエンコーダ）・BERT ・RoBERTa

音声エンコーダ

テキストエンコーダ

・PANN（CNNベースモデル）

・HTSAT（transformerベース）

・CLIP transformer（CLIPのテキストエンコーダ）

・BERT

・RoBERTa

上記のエンコーダによって獲得した埋め込みに対して、「音声埋め込みE^a」と「テキスト埋め込みE^t」の同じ次元を得るために、MLPを適用します。

そして、各ペアデータのE^aとE^tを使って、以下の損失関数を最小化するように学習します。