Facebook AIがRNNによる新しい音声分離モデルを開発!大人数の会話からあなたの声だけを抜き出す!?
3つの要点
✔️Facebook AIがRNNを用いた新しい教師あり音声分離モデルを開発
✔️音声分離ネットワーク学習のための新たな損失を提案
✔️未知の話者数に対するモデル選択手法を提案
Voice Separation with an Unknown Number of Multiple Speakers
written by Eliya Nachmani, Yossi Adi, Lior Wolf
(Submitted on 29 Feb 2020 (v1), last revised 1 Sep 2020 (this version, v4))
Comments: Accepted to ICML 2020
Subjects: Audio and Speech Processing (eess.AS)
1. はじめに
FacebookのAI研究チームが音声分離のための新しい研究成果を発表しました.音声分離とは,複数人が同時に話をしていても,特定の人の音声だけを取り出すことです.初期の研究の多くは,複数のマイクロフォンからの音源を独立成分分析などの教師なし学習によるものでしたが,本研究ではディープニューラルネットワークにより性能が飛躍的に向上した,単一マイクからの教師あり音声分離問題に焦点を当てています.
既存の研究ではマスク処理(話者Aの音源のみを通すフィルターをあらかじめ作成しておき,これを入力信号に乗じて話者Aのみを取り出すこと)に依存していましたが,分離する声の数が増えるほどより多くの特徴を抽出する必要があり,マスクベース手法の限界となっています.そこで,本研究ではマスク処理を用いずにRNNによって実現しています.また,この新しいRNNベースの分離手法を実現するために,新しい損失を提案しています.さらに,この新しい損失は,ベースライン手法に採用してもパフォーマンスの改善が見られることを実証しています.
最新の手法と同様に,話者数ごとに1つのモデルを学習します.既存研究では話者数が増加する度に性能が低下していますが,本手法ではそれよりも低下が緩やかとなっています.
また,未知の話者数(あらかじめ何人いるか分かっていない状況)に対応するために,学習不要の活動検出器を利用した手法も提案しています.
続きを読むには
(3694文字画像20枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー