データのアライメントも学習するEnd-To-End新音声合成、EATS!
3つの要点
✔️ 真のEnd-to-Endに近づいたDeepMindの新音声合成方式
✔️ テキストと音声のアライメントを自動で学習可能に
✔️ GAN識別器を使った巧妙な損失関数設計
End-to-End Adversarial Text-to-Speech
written by Jeff Donahue,Sander Dieleman,Mikołaj Bińkowski,Erich Elsen,Karen Simonyan
(Submitted on 5 Jun 2020)
Comments: Published by arXiv
Subjects: Sound (cs.SD); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)
はじめに
DeepMindからまた新しい音声合成が出ました! すごいの? もうTacotron2で十分なんだけど…
そんな声も聞こえてきそうに思います。結論から言うと、音質が上がる手法ではありませんが、これは別の意味ですごい手法かもしれません。
〇〇と〇〇をアライメントする方式の提案。
なのです。何がすごいの? 〇〇の組み合わせ次第でインパクトが大きいかもしれないんです。
この論文の場合は「テキストと音声をアライメント」していますが、
- テキストとビデオをアラインメント…、文章からイメージ映像を生成?
- 絵画と音楽をアラインメント…、イメージ音楽の生成?
いい感じですよね、ではこれどうでしょう。
- 政治家の発言から未来の株価上下タイミングをアラインメント…、投資の指標に!?
なんと一気に金融方面のアプリケーションへ展開です。そんなアイデアに結びつくのでしょうか!?
EATS - End-to-end Adversarial Text-to-Speechを解説します。
続きを読むには
(8662文字画像18枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー