データのアライメントも学習するEnd-To-End新音声合成、EATS!

データのアライメントも学習するEnd-To-End新音声合成、EATS!

3つの要点
✔️ 真のEnd-to-Endに近づいたDeepMindの新音声合成方式
✔️ テキストと音声のアライメントを自動で学習可能に
✔️ GAN識別器を使った巧妙な損失関数設計

End-to-End Adversarial Text-to-Speech
written by Jeff Donahue,Sander Dieleman,Mikołaj Bińkowski,Erich Elsen,Karen Simonyan
(Submitted on 5 Jun 2020)

Comments: Published by arXiv
Subjects: Sound (cs.SD); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

はじめに

DeepMindからまた新しい音声合成が出ました! すごいの? もうTacotron2で十分なんだけど…

そんな声も聞こえてきそうに思います。結論から言うと、音質が上がる手法ではありませんが、これは別の意味ですごい手法かもしれません。

〇〇と〇〇をアライメントする方式の提案。

なのです。何がすごいの? 〇〇の組み合わせ次第でインパクトが大きいかもしれないんです。
この論文の場合は「テキストと音声をアライメント」していますが、

     - テキストとビデオをアラインメント…、文章からイメージ映像を生成?

   - 絵画と音楽をアラインメント…、イメージ音楽の生成?

いい感じですよね、ではこれどうでしょう。

     - 政治家の発言から未来の株価上下タイミングをアラインメント…、投資の指標に!?

なんと一気に金融方面のアプリケーションへ展開です。そんなアイデアに結びつくのでしょうか!? 

EATS - End-to-end Adversarial Text-to-Speechを解説します。

この記事をシェアする