【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル

Speech Synthesis 2024年07月01日

3つの要点
✔️ Transformerデコーダーを採用したトークン補完型ニューラルコーデック言語モデル
✔️ 音声編集とゼロショット音声合成(TTS)の両方で最先端の性能を達成
✔️ 音声編集の評価のための高品質なデータセット「REALEDIT」を導入

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
written by Puyuan Peng ,Po-Yao Huang, Daniel Li
(Submitted on 25 Mar 2024)
Comments: Published on arxiv.

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

VoiceCraft：音声編集・合成分野でSOTAを達成

本論文の内容は、「音声編集とゼロショット音声合成（TTS）の両方で、SOTAを達成したVoiceCraftの開発」というもの。本記事では、本論文に倣ってText-to-SpeechをTTSと表現しています。

本研究のポイントは、以下の通りです。

問題設定：音声編集とゼロショット音声合成(TTS)を統一的に行えるモデルの開発
解決手法①：トークン補完型のニューラルコーデック言語モデルVoiceCraftを提案
解決手法②：VoiceCraftを音声編集と音声合成の両タスクで学習・評価
ポイント：VoiceCraftにより、業界最高水準での音声編集・合成が可能になった

つまり、VoiceCraftは音声編集において、お手本の音声サンプルと区別がつかないほど自然な編集音声を可能にし、それと同時にゼロショットTTSにおいて、従来の最先端モデルを上回る性能を示しました。

ちなみに、音声合成とAI安全性の研究を促進することを目的として、VoiceCraftのコードとモデルの重みは、GitHubで公開されています。

研究背景

ニューラルコーデック言語モデル

近年、ニューラルコーデック言語モデルを用いた、音声合成の研究が盛んに行われています。

ニューラルコーデック言語モデルとは、音声信号を離散トークン列に変換し、その列に対して言語モデルを適用することで、言語生成と同じ要領で音声を生成する手法です。

中間表現として、メルスペクトログラムを使わず、音声トークンを利用している点が特徴です。

ゼロショットTTSと音声編集

ゼロショットTTSとは文字起こしに似ており、「お手本となる音声サンプル」と「文字起こししたいテキスト」を入力します。すると、AIがお手本の音声サンプルの声で、文字起こししたいテキストを読み上げてくれるのです。

一方、音声編集は、音声サンプルにおける発話内の単語やフレーズを変更し、自然に読み上げするタスクです。その際、編集対象以外の部分は変更せずに、アクセントやイントネーション等を維持する必要があります。

この辺に関しては、公式Demoページを参考にした方が分かりやすいです。

これまでTTSや音声編集の分野で様々なモデルが開発されてきましたが、ゼロショットTTSと音声編集の両方を統一的に行えるモデルは少ないとのこと。

また、多様なアクセント・話し方・録音条件・ノイズを含む「より現実に即した音声データ」が不足しているのも現状です。

VoiceCraftの主な手法

VoiceCraftでは、ニューラルコーデック言語モデル(NCLM)の出力トークンを並べ替え、その後のデコーダーのみのTransformerによる自己回帰的な系列予測によって、音声編集やTTSを実現しています。

トークンの並べ替え手順は、以下の2ステップです。

Causal masking
Delayed stacking

最初のCausal Maskingでは、連続音声波形を入力として、Encodecを用いて量子化します。学習時は、Xのトークンのスパンをランダムにマスクし、それをシーケンスの最後に移動させます。

次のDelayed stackingでは、Yにおける時刻tのコードブックkの予測において、コードブックk-1を条件とできるように、斜めに要素を取り出したベクトルになるようシフトさせます。

Transformerデコーダによるモデリング

そうして得られたトークン列Zを、Transformerデコーダーを用いて自己回帰的にモデル化します。このとき、音声のトランスクリプトWとZを結合したものを、条件として入力します。

音声編集タスクの推論では、編集対象のスパンを特定し、マスクトークンを用いて自己回帰的にマスク推定するのが特徴です。

一方、ゼロショットTTSでは、プロンプト音声とそのトランスクリプト、目標トランスクリプトを連結して入力します。

どちらもトークン並べ替え手法を用いることで、双方向のコンテキストを考慮した、自然な音声合成を可能にしているのがポイントだと言えます。

VoiceCraft vs 既存モデル

本研究では、音声編集とゼロショットTTSの各タスクにおける、VoiceCraftの性能を検証するために、既存モデルとの比較実験が行われてます。

音声編集の実験

ここでは特に、多様なアクセント、話し方、録音条件、背景ノイズを含む「より現実に近い音声データ」で検証されています。

具体的には、著者らが新たに作成した音声編集タスクにおけるデータセット「REALEDIT」を用いています。REALEDITは、オーディオブック、YouTube動画、ポッドキャストから収集した310の実録音声を含み、編集対象のテキストの長さは1単語から16単語と幅広いです。

検証では、VoiceCraftと、既存の最高性能モデルである「FluentSpeech」を比較しています。定量指標としてWERを、定性的な評価としてMOS(Mean Opinion Score)が用いられています。

結果は以下の通りです。

VoiceCraftはMOSのすべてにおいて、FluentSpeechを上回っています。

また、VoiceCraftで編集された音声は、人間にとって48%の確率で編集前の実録音声と区別がつかないレベルだったとのこと。

ゼロショット音声合成(TTS)の実験

ここでVoiceCraftと、VALL-E、XTTS v2、YourTTS、FluentSpeechと比較しています。

定量指標としてWERとSIM(元の声主の声と似ているか)を、定性的な評価としてMOSを用いています。

結果は以下の通りです。

VoiceCraftは、SIM、すべてのMOS指標において、他のモデルを上回る性能を達成しています。

VoiceCraftは音声合成分野における最先端モデル

本記事では、音声編集とゼロショット音声合成（TTS）の両方で、SOTAを達成したVoiceCraftの研究をご紹介しました。

本研究の限界点として、生成時に長い無音やスクラッチノイズが発生することがあるとのこと。

加えて、音声合成技術の進歩に伴い、音声の偽造や悪用のリスクが高まっているため、VoiceCraftのようなモデルに対して、ウォーターマーキングやディープフェイク検出の研究がさらに求められると述べています。

個人的な意見

VoiceCraftのコードとモデルが公開されているため、さらなるモデルの性能向上や、VoiceCraftをベースとした革新的なモデルの開発が期待できます。

一方で、音声偽造による詐欺などの悪用リスクも、無視できないと感じました。やはり、VoiceCraftによって生成された音声を聞いても、本人（入力音声の声主）の声と区別がつかないです。

そのため、例えば「あたかも本人が喋っているように見せかけ、親族に対して口座にお金を振り込ませる」ような詐欺被害も増えることが懸念されます。

そういったリスクへの対応も、今後さらに必要になってくるでしょう。

この記事に関するカテゴリー

Nakata

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル

VoiceCraft：音声編集・合成分野でSOTAを達成

研究背景

ニューラルコーデック言語モデル

ゼロショットTTSと音声編集

VoiceCraftの主な手法

Transformerデコーダによるモデリング

VoiceCraft vs 既存モデル

音声編集の実験

ゼロショット音声合成(TTS)の実験

VoiceCraftは音声合成分野における最先端モデル

個人的な意見

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベー ...

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeMoが登場！

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeM ...

データのアライメントも学習するEnd-To-End新音声合成、EATS!

データのアライメントも学習するEnd-To-End新音声合成、EATS ...