【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー

Speech Synthesis 2024年07月10日

3つの要点
✔️ 高品質かつ効率的な音声合成を実現するニューラルボコーダー「HiFi-GAN」を提案
✔️ 22.05kHzの音声を、単一V100 GPUで生成可能
✔️ 様々なend-to-end音声合成タスクへの応用可能性を示した

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
written by Jungil Kong, Jaehyeon Kim, Jaekyoung Bae
(Submitted on 23 Oct 2020)
Comments: NeurIPS 2020. Code available at this https URL
Subjects: Sound (cs.SD); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

中間表現から生の波形を生成するHiFi-GANを提案

本論文の内容は、「メルスペクトログラムなどの中間表現から、高品質な音声波形を効率よく生成できるHiFi-GANの構築」というもの。

本研究のポイントは、以下の通りです。

課題：GANによる音声波形の生成手法は、自己回帰やflow-basedモデルには品質面で及ばない
解決手法：効率的かつ高品質な音声合成を実現するHiFi-GANを提案
ポイント：22.05kHzの高品質音声を、1つのV100 GPUで生成可能になった

つまり、メルスペクトログラムという音声の中間表現から、高品質な生の音声を効率よく生成できるようになったのです。

ニューラルボコーダーと音声合成分野の背景

近年、深層学習の発展により、音声合成技術が急速に進歩しています。

多くのニューラル音声合成モデルは、以下の2段階のパイプラインを採用しています。

テキストからメルスペクトログラムなどの中間表現を予測
中間表現から生の波形を合成

本論文では、「メルスペクトログラムから効率的に高品質な音声波形を生成」する第2段階目のモデル設計に焦点を当てています。

ちなみに、この第2段階目のモデルを「ニューラルボコーダー（Neural Vocoder）」という事が多く、これまでも様々な研究が行われてきました。

先行研究	内容	問題点
WaveNet	畳み込みニューラルネットワークを用いて高品質な音声合成を実現	自己回帰モデルのため生成速度が遅い
Parallel WaveNetやWaveGlowなどのflow-basedモデル	並列計算により高速化を実現	パラメータ数が多い
GANを用いMelGAN	コンパクトなモデルで高速合成を可能にした	自己回帰モデルやflow-basedモデルの品質には及ばない

ちなみに、音声合成分野に共通する事項として、「音声は様々な周期の正弦波信号から構成されるため、音声の周期的パターンをモデル化することが重要」という点が挙げられます。

提案手法：HiFi-GANの概要

本研究のHiFi-GANは、以下のようなGANベースの生成モデルです。

出典：https://pytorch.org/hub/nvidia_deeplearningexamples_hifigan/

具体的には、1つのGeneratorと、「Multi-Period Discriminator(MPD)」と「Multi-Scale Discriminator(MSD)」という2つのDiscriminatorで構成されています。

Generator

HiFi-GANのGeneratorは、全畳み込みニューラルネットワークで構成されています。

入力としてメルスペクトログラムを使用し、トランスポーズ畳み込みによりアップサンプリングを繰り返し、出力シーケンスの長さが生の音声波形の時間解像度と一致するまで拡大します。

また、各トランスポーズ畳み込みの後には、multi-receptive field fusion (MRF)モジュールが続く形となっています。

・multi-receptive field fusion(MRF)

MRFモジュールは、様々な長さのパターンを並列に捉えるために設計されています。具体的には、MRFモジュールは複数のResidual Blockの出力の和を返します。

各Residual Blockは、多様なreceptive fieldパターンを形成するために、異なるカーネルサイズとdilation rateが選択されているとのこと。

Discriminator

HiFi-GANでは、以下の2つの識別器を用いています。

Multi-Period Discriminator (MPD)
Multi-Scale Discriminator (MSD)

MPDは複数のサブ識別器から構成され、各サブ識別器は入力音声から等間隔でサンプリングされた信号のみを受け取ります。これにより、各サブ識別器は入力音声の異なる周期的パターンに着目することができ、音声に内在する多様な周期的構造を捉えることが可能となるのです。

また、MSDは入力音声を連続的に異なるスケールで評価することで、連続的なパターンや長期的な依存関係を捉えられます。具体的には、生の音声、1/2にダウンサンプリングした音声、1/4にダウンサンプリングした音声の3種類を入力とする、3つのサブ識別器から構成されます。

このように、MPDとMSDを組み合わせることで、HiFi-GANは生成音声の細かな周期的特徴から大局的な連続的特徴までを多角的に評価できると考えられます。

損失関数

HiFi-GANの学習では、以下の4つの損失関数を使用しています。

GAN損失 (Adversarial Loss)
メルスペクトログラム損失 (Mel-Spectrogram Loss)
特徴マッチング損失 (Feature Matching Loss)
最終損失関数（Final Loss）

・GAN損失 (Adversarial Loss)

GAN損失 (Adversarial Loss)では、MPDとMSDを1つの識別器とみなし、LSGANの目的関数が用いられています。また、識別器は本物の音声を1、生成された音声を0に分類するよう学習し、生成器は識別器を欺くように学習します。

・メルスペクトログラム損失 (Mel-Spectrogram Loss)

メルスペクトログラム損失 (Mel-Spectrogram Loss)では、生成器の学習効率と生成音声の品質を向上させるため、GAN損失に加えてメルスペクトログラム損失を導入します。

具体的には、生成器が合成した波形と、実波形のメルスペクトログラム間のL1距離として定義されます。

この損失により、生成器は入力条件に対応する自然な波形を合成できるようになり、敵対的学習の初期段階から学習が安定化されるとのこと。

・特徴マッチング損失 (Feature Matching Loss)

実サンプルと生成サンプルにおける、識別器の特徴量の類似度を指します。

具体的には、識別器の中間特徴量を抽出し、各特徴空間における実サンプルと条件付き生成サンプルのL1距離を計算します。

・最終損失関数（Final Loss）

最終的なHiFi-GANの損失関数です。

ここでの生成器の損失関数は、上記の3つの損失関数の重み付き和で表されます。

本手法の有効性

実験内容

HiFi-GANの音声合成品質と合成速度を評価するために、以下の4つの実験が行われています。

他の最新モデル(WaveNet, WaveGlow, MelGAN)との主観評価と速度比較
HiFi-GANの各コンポーネント(MPD, MRF, メルスペクトログラム損失)の品質への影響調査
音声合成における汎化性能の調査
End-to-end音声合成実験

・他の最新モデルとの主観評価と速度比較

LJSpeechから50発話をランダムに選択し、主観評価(Mean Opinion Score, MOS)と合成速度を測定しています。

結果より、HiFi-GANは、WaveNet, WaveGlow, MelGANなどの他モデルよりも高いMOSを達成しています。また、HiFi-GANのV3に関しては、CPUでリアルタイムの13.44倍の高速合成が可能となっています。

・HiFi-GANの各コンポーネントの品質への影響調査

HiFi-GANの各コンポーネント(MPD, MRF, メルスペクトログラム損失)が音声品質に与える影響を調査するためにV3をベースに各コンポーネントを除去し、MOSを比較してます。また、MelGANにMPDを導入した場合の効果も検証したとのこと。

結果より、MPD, MRF, メルスペクトログラム損失のすべてが性能向上に寄与していることが分かります。特に、MPDを除去した際、品質がかなり低下しています。

また、MelGANモデルにMPDを導入したところ、大幅な改善が見られたとのこと。

・音声合成における汎化性能の調査

データセットから9人の話者の声データを除外し、その話者の音声に対してメルスペクトログラム変換→HiFi-GANを用いた音声合成を行い、MOSを測定しています。

結果より、HiFi-GANの3つのバリエーション全てにおいて、自己回帰やflow-basedモデルを上回ることが分かります。

この結果より、音声合成において高い汎化能力が認められたとのこと。

・End-to-end音声合成実験

HiFi-GANをText-to-Spectrogramモデルの「Tacotron2」と組み合わせ、end-to-end音声合成の性能を評価しています。

具体的には、Tacotron2で生成したメルスペクトログラムをHiFi-GANに入力し、MOSを測定。加えて、ファインチューニングによる効果も検証しています。

結果より、Tacotron2とHiFi-GANを組み合わせたは音声合成モデルは、WaveGlowを上回ることが分かります。また、ファインチューニングにより、V1はMOS 4.18を達成し、ほぼ人間の声と同等の品質を実現したとのこと。

まとめ

本記事では、効率的かつ高品質な音声合成を実現するGANモデル「HiFi-GAN」に関する研究をご紹介しました。

本研究の限界点としては、以下の3点が挙げられいます。

より多様な話者や言語への適用可能性は不明
声の感情や韻律の表現力については十分に検証されていない
限られた計算リソース環境での音声合成性能は評価されていない

そこで、今後の研究として、上記の問題に対処するためにのHiFi-GANの拡張モデル開発や、小規模データセットでの学習による小型化・効率化を計画しているとのこと。

個人的な意見

個人的な意見として、音声の周期的特性に着目し、MPDを提案した着眼点が素晴らしいと感じました。また、音声に限らず他の時系列データの生成モデルにも、応用できるアイデアだと思いました。

ちなみに、現在の拡散モデルを用いた音楽生成モデル等での最後の工程部分で、ボコーダーとしてHiFi-GANが良く用いられています。

例えば以下の通り。

音楽データ→メルスペクトログラム変換→VAEで圧縮→拡散モデルで生成→VAEでメルスペクトログラムに変換→HiFi-GANを通して生の音楽データを生成

また、学習を実行してみたところ、さほど時間がかからなかった印象でした。

この記事に関するカテゴリー

Nakata

【HiFi-GAN】単一GPUで22kHzの音声を生成可能なGANベースのボコーダー

中間表現から生の波形を生成するHiFi-GANを提案

ニューラルボコーダーと音声合成分野の背景

提案手法：HiFi-GANの概要

Generator

Discriminator

損失関数

本手法の有効性

実験内容

まとめ

個人的な意見

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデル

【VoiceCraft】業界最高レベルで自然な音声を合成できる言語モデ ...

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeMoが登場！

スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeM ...

データのアライメントも学習するEnd-To-End新音声合成、EATS!

データのアライメントも学習するEnd-To-End新音声合成、EATS ...