最新AI論文をキャッチアップ

AI-SCHOLARとは？

データのアライメントも学習するEnd-To-End新音声合成、EATS!

Speech Synthesis 2020年06月19日

3つの要点
✔️ 真のEnd-to-Endに近づいたDeepMindの新音声合成方式
✔️ テキストと音声のアライメントを自動で学習可能に
✔️ GAN識別器を使った巧妙な損失関数設計

End-to-End Adversarial Text-to-Speech
written by Jeff Donahue,Sander Dieleman,Mikołaj Bińkowski,Erich Elsen,Karen Simonyan
(Submitted on 5 Jun 2020)
Comments: Published by arXiv
Subjects: Sound (cs.SD); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

はじめに

DeepMindからまた新しい音声合成が出ました! すごいの? もうTacotron2で十分なんだけど…

そんな声も聞こえてきそうに思います。結論から言うと、音質が上がる手法ではありませんが、これは別の意味ですごい手法かもしれません。

〇〇と〇〇をアライメントする方式の提案。

なのです。何がすごいの? 〇〇の組み合わせ次第でインパクトが大きいかもしれないんです。
この論文の場合は「テキストと音声をアライメント」していますが、

- テキストとビデオをアラインメント…、文章からイメージ映像を生成?

　 - 絵画と音楽をアラインメント…、イメージ音楽の生成?

いい感じですよね、ではこれどうでしょう。

- 政治家の発言から未来の株価上下タイミングをアラインメント…、投資の指標に!?

なんと一気に金融方面のアプリケーションへ展開です。そんなアイデアに結びつくのでしょうか!?

EATS - End-to-end Adversarial Text-to-Speechを解説します。

続きを読むには

(8662文字画像18枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

この記事に関するカテゴリー

daisukelab: 製造業を中心に数々の製品ソフトウェア設計を成功させたバックグラウンドを持ち、ディープラーニングをインパクトに変える研究開発をオープンに推進。ご相談はTwitterアカウントへのDMにてお願いします。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする