赶上最新的AI论文

Facebook人工智能与RNN合作开发了一种新的语音分离模式!从一大群人的对话中只提取你的声音!

语音识别

三个要点
✔️FacebookAI利用RNN开发新的监督语音分离模型。
✔️提出一种新的学习语音分离网络的损失。
✔️提出了一种未知数量的发言者的模型选择方法。 

Voice Separation with an Unknown Number of Multiple Speakers
written by Eliya Nachmani, Yossi Adi, Lior Wolf
(
Submitted on 29 Feb 2020 (v1), last revised 1 Sep 2020 (this version, v4))
Comments: Accepted to ICML 2020
Subjects: Audio and Speech Processing (eess.AS)
  
 

1. 介绍

FacebookAI研究团队公布了语音分离的新研究成果。语音分离是指即使多人同时说话,也只提取特定人的声音。早期的大部分工作都是基于对来自多个麦克风的音源进行无监督学习,如独立分量分析,而本工作则专注于从单个麦克风进行有监督的语音分离问题,其性能已被深度神经网络大幅提高。

现有的研究都是依靠掩码处理(即事先建立一个只通过说话人A的声源的滤波器,再与输入信号相乘,只提取说话人A),但需要分离的声音越多,需要提取的特征就越多,这是基于掩码方法的局限性。然而,需要分离的声音越多,需要提取的特征就越多,这是基于掩码的方法的局限性。 在本研究中,我们使用了不需要掩码处理的RNN。此外,我们还提出了一种新的损耗来实现这种新的基于RNN的分离方法。此外,我们还证明了新的损失改善了基线方法的性能。

与最先进的方法一样,我们为每个发言者的数量训练一个模型。我们的方法的性能比现有的方法慢,随着扬声器数量的增加,性能下降。

我们还提出了一种使用免学习活动检测器的方法来处理未知数量的发言者(事先不知道发言者数量的情况)。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们