最新AI論文をキャッチアップ

自然な音声を生成し人と機械のコミュニケーションを円滑にする「WaveNet」とは

自然な音声を生成し人と機械のコミュニケーションを円滑にする「WaveNet」とは

論文

3つの要点
✔️ 音声合成や音声生成に多く貢献
✔️ 従来のTTSを改善

✔️ パラメトリックTTSと波形接続TTSの両方を超える結果

WaveNet: A Generative Model for Raw Audio
written by Aaron van den OordSander DielemanHeiga ZenKaren SimonyanOriol VinyalsAlex GravesNal KalchbrennerAndrew SeniorKoray Kavukcuoglu
(Submitted on 12 Sep 2016 (v1), last revised 19 Sep 2016 (this version, v2))

Comments: Published by arXiv
Subjects: Sound (cs.SD); Machine Learning (cs.LG)

はじめに

人とスマートフォンのような機械の間を取り持つインターフェイスとして、視覚情報の他に聴覚情報、すなわち音声があります。音声によるインターフェイスは、視覚障害者の役に立つだけでなく、ハンズフリーの操作や「親近感」の観点からも有用と言えます。スマートスピーカーに親しみを感じる方も多いのではないでしょうか?

こういった音声合成や音声生成において大きな影響を与えたといわれているのがWaveNetです。

WaveNetは2016年にDeepMindから発表された研究で、その後の改良版が様々なところで実用化されています。身近なところだとGoogleアシスタントが、またビジネス向けにはGoogle Cloudの多言語対応の音声合成サービスなどがあります。音声合成のデモもあるので、ご興味のある方は試してみてください。
Cloud Text-to-Speech – 音声合成  |  Cloud Text-to-Speech API  |  Google Cloud

また、2018年のGoogle I/Oでは、レストランや美容院の電話予約を自動で会話しながら完了させてしまうDuplexのデモが話題になりました(実験は下動画1:10-)。

(実際には裏側で本物の人が話していることもある、という噂が出るほどのクオリティでした。)
Google’s Duplex Uses A.I. to Mimic Humans (Sometimes) – The New York Times

続きを読むには

(3272文字画像6枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または
本田志温 avatar
AI創薬を研究する学生。CV/NLP/RLなど機械学習を広く勉強しています。 Twiiter(@shion_honda)でも日々簡単な論文紹介をしているのでぜひ覗いてみてください!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする