自然な音声を生成し人と機械のコミュニケーションを円滑にする「WaveNet」とは

論文 2019年06月09日

3つの要点
✔️ 音声合成や音声生成に多く貢献
✔️ 従来のTTSを改善
✔️ パラメトリックTTSと波形接続TTSの両方を超える結果

WaveNet: A Generative Model for Raw Audio
written by Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu
(Submitted on 12 Sep 2016 (v1), last revised 19 Sep 2016 (this version, v2))
Comments: Published by arXiv
Subjects: Sound (cs.SD); Machine Learning (cs.LG)

はじめに

人とスマートフォンのような機械の間を取り持つインターフェイスとして、視覚情報の他に聴覚情報、すなわち音声があります。音声によるインターフェイスは、視覚障害者の役に立つだけでなく、ハンズフリーの操作や「親近感」の観点からも有用と言えます。スマートスピーカーに親しみを感じる方も多いのではないでしょうか？

こういった音声合成や音声生成において大きな影響を与えたといわれているのがWaveNetです。

WaveNetは2016年にDeepMindから発表された研究で、その後の改良版が様々なところで実用化されています。身近なところだとGoogleアシスタントが、またビジネス向けにはGoogle Cloudの多言語対応の音声合成サービスなどがあります。音声合成のデモもあるので、ご興味のある方は試してみてください。
Cloud Text-to-Speech – 音声合成 | Cloud Text-to-Speech API | Google Cloud

また、2018年のGoogle I/Oでは、レストランや美容院の電話予約を自動で会話しながら完了させてしまうDuplexのデモが話題になりました(実験は下動画1:10-)。