【誰でも英語が話せる時代到来！？】多言語に対応したゼロショット音声合成技術により、誰でも簡単にネイティブ並みの発音を！

Speech Recognition for the Dysarthric 2025年02月04日

3つの要点
✔️ 多言語TTSシステムに統合できるゼロショット声転送（VT）モジュールの提案
✔️ 提案されたVTモジュールは、１つ短い音声から、高品質で再現度の高い声を異なる言語音声に変換できる
✔️ 構音障害を抱える話者の音声を復元できる

Zero-shot Cross-lingual Voice Transfer for TTS
written by Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
[Submitted on 20 Sep 2024]
Comments: Submitted to ICASSP
Subjects: Audio and Speech Processing (eess.AS); Sound (cs.SD)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

音声合成は可能性の原石...

ココだけでもよんで！論文超要約！？

英語を流暢に話して、現地の人と楽しく交流するんだ！なんて意気込んで早２年。英語を読んだり聞いたりすることへの抵抗は薄れたけれど、話せない。

英語特有の発音まじでムズイ。挫折しそう....これは私の経験談なんですが、実際にこのような思いを抱いている読者の方も多いのではないでしょうか？

英語の発音って日本語とは大きく違いますからね。こんな発音で現地の人と楽しく交流できるのかな～と不安になる気持ちはよくわかります。

今回は。そんな私たちの不安を少しでも軽減してくれるようなコミュニケーションツールとして活躍間違いなしのTTS（text to speech）技術を紹介します！

Googleチームが開発するこのモジュールは、たった数秒の音声サンプルがあれば、その人の声の特徴を保ちながら、別の言語で話している音声を合成することができます。

これ凄くありません？学習に使うサンプルは数秒の音声だけですよ。今までの合成技術だと最低でも２時間程度必要となることが多いので、これは革新的と言わざるを得ません。

このように以前からTTSに関わるモデルはあったのですが、同一言語での合成が基本であり、多言語へ変換するというのは技術的に課題がありました。

多言語への合成を成功させるため、この研究では３つの課題に取り組みました。

少ない音声サンプルからも高品質な音声を生成する
言語Aから言語Bに声の特徴を転送すること
発話障害のある話者の声を復元すること

ここで発話障害というワードが出てきたので補足を。発話障害とは、発声器官または脳神経に何らかの問題を抱え、正確な発音ができない障害の事です。健常者の発話とは大きくかけ離れるため、研究上では他言語とみなすことも可能です。

さて、この研究の主な成果としては、多言語TTSシステムに簡単に組み込むことができるゼロショットVTモジュールの開発に成功しました。そして合成精度としては、１つの短い音声サンプルから９つの言語の音声を生成し、平均７３％の話者類似度の達成しました。また、発話障害のある話者の音声からも高品質な音声合成が可能であることを実証しました。

いや～すごいですね！ものの数秒の音声から類似度７０％越えの音声の合成ですよ。これはコミュニケーション手段としてだけではなく、咽頭摘出により声が出せなくなってしまった患者の声の復元などの福祉的な応用も様々出来そうですよね。

従来の研究では、高品質な音声の合成には多くのサンプルが必要で、言語間の声の転送は困難でした。この研究により、これらの制限を大幅に改善し、音声合成の可能性を大きく広げました。

やっぱりコミュニケーションにおいて話者性って大事ですよね。せっかく人と楽しく話すときに、コミュニケーションの補助として冷たい機械音声だと味気ないですもん。

さて次の章からは、このVTモジュールのアーキテクチャーについて見ていきましょう。技術について詳しく知るならアーキテクチャーからは逃げられませんからね～

VTモジュールのアーキテクチャーをみていこう...

こちらがＶＴモジュールのアーキテクチャーになります。ここで一旦。モジュールとは何かおさらいしておきましょう。モジュールを簡単に説明すると、モデルに組み込めるカスタマイズパーツとでも言いましょうか。この内容を理解するだけならば、この程度の認識でなんら問題ないと思います。

ゆっくりと説明していきますよ。まず入力部分。サンプル音声は、Speaker Encoderに、合成したいテキストが、Text Encoderに入力されます。

エンコーダー内部では、入力テキストは処理しやすい形で処理され、音声はその音声の話者特徴が抽出されます。特徴量抽出には、Transformerレイヤーが使用されています。

Bottleneck Layerでは、音声エンコーダーの出力から、話者の特徴を抽出していきます。

（話者の特徴量は念入りに抽出するようですね～）

Duration Predictor and Upsamplerでは、テキストの各部分の持続時間を予測して、その予測に基づいて抽出した特徴を拡張していきます。

Feature Decoderは、全６層で構成されており、音声の特徴量を生成します。

（６層もあるの！？だから高品質な音声を安定して生成できるんだね）

WaveFit Vocoderでは、先の層で生成された出力を受け取り、最終的な音声波形を生成します。

はい。流れはこのような感じになります！だいたいの流れは掴むことができましたか？

このモジュールの凄いところは、これを既存の多言語TTSモデルに容易に組み込むことができるところです。まぁ容易とはいっても、TTSモデルの構造は複雑で、プログラム単位で見ればもっと複雑怪奇なものでしょうから、私たちには縁がないかもしれませんが....

本来ならば、ここから結果の紹介と考察に入るのですが、なかなかに紹介しづらい表になってしまっているため、今回の論文では以下の点を押さえておけば十分です。（要約の繰り返しにはなりますが...）

これは、TTSモデルではなくモジュールである。モジュールはいうなれば、組み立て終わったガンプラに付け加えるカスタムパーツ、仮面ライダーの変身ベルトに取り付けるタイプの強化アイテム。

従来の研究では、高品質を追及するにはたくさんの音声サンプルが必要であったが、このモジュールはたった数秒の音声サンプルがあれば、９つの言語に対応し平均７０％越えの類似度を誇る高品質な音声を生成可能。

さらに音声合成の可能性は拡張され、発話障害のある話者の音声を復元するなどの福祉的な応用も見込まれる。

まぁこんなもんですかね。音声合成って楽しいんですけど、自分でプログラムを作るのは至難の業です。私もGANで挑戦しましたが、ノイズはヒドイし声になってないしで散々な結果になったことがあります。

本当にモデルを１から開発できる技術者・研究者には頭が上がりませんよ～

はい。今回はここまで、最後まで読んでくださった読者の皆さん本当にありがとうございます。

アサさんでした～またね！

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！