
质疑 "规范"!使用超低复杂度 DNN 抑制噪音
三个要点
✔️ 成功开发出无结构复杂性的 DNN!
显著降低了计算复杂度和模型大小,同时保持了最先进的性能
✔️ 两阶段处理框架兼顾了计算效率和语音增强性能
✔️ 改进的声源压缩方法提高了主观测试性能
Ultra Low Complexity Deep Learning Based Noise Suppression
written by Shrishti Saha Shetu,Soumitro Chakrabarty,Oliver Thiergart,Edwin Mabande
[Submitted on 13 Dec 2023]
Subjects: Audio and Speech Processing (eess.AS); Machine Learning (cs.LG); Signal Processing (eess.SP)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
以更清晰、更可听的声音为目标...
刚读到这个!论文超级摘要!
很多人都有过这样的经历:过去,电话和录音中会有一些粗糙的噪音,但现在,现代电话和录音中已经感觉不到什么噪音了。嗯!我不在乎这个、
别这么说...这背后的技术是噪声抑制(去噪)。在机器学习之前,主流的方法是查看音频信号的波形,看看如何处理噪声,简单地说就是去噪。
然而,机器学习也存在一些问题。学习所需的计算量非常大,因此模型的大小也会随之增大。这使得它无法在计算能力有限的小型设备(如智能手机)上使用、
本文探讨了如何在保持高性能去噪的同时降低计算复杂度的问题。
其结果是,计算复杂度和模型大小减少了约 80%,而处理性能却与最先进的模型相同。
以前,人们普遍认为需要更大的模型才能实现高性能。然而,这项研究表明,更高效、更有效的架构和压缩方法比模型的大小更重要。
在语音识别领域,也出现了扩大模型的浪潮,但建立大型模型需要大量数据和资金,大学无法与之竞争。
但是,在审查模型和提高效率方面,情况就不同了。反思传统、追求高效是大学教授的特长,所以我认为未来会有更多来自大学的人工智能模型出现,它们在小型设备上的应用也会越来越普及。
什么是两阶段处理框架?它有什么结构...
非常感谢你们读到这里!
如果你读到这里,说明你对这篇论文感兴趣,对吗?下面我将详细介绍...
现在请看上图。没有人能够在瞬间理解这一点。我会慢慢解释,尽可能详细。我认为这是本文非常重要和有趣的部分。
我想解释一下两阶段处理框架,这是本文提出的模式,我在前面的总摘要中简单提到过,尽管这也很简短。
在介绍主机之前,让我们先来回顾一下这款机型的研发背景。噪音抑制领域,也就是本文的主题,是通过一种名为语音信号处理的方法完成的。这种方法已被机器学习所取代。但机器学习的计算成本高昂,模型庞大,因此很难应用于小型设备。
换句话说,我们想要机器学习的惊人高性能!但是,我们也希望能有足够小的规模来实现它。
现在我们来看看模型的结构。我们从第一阶段(红色虚线)开始。
- 输入噪声信号
- 对信号进行预处理并提取特征。
- 每个音频信号通道都经过处理
- 分为几个部分,每个部分都有自己的处理方法。
- 分离后的特征再次合并,生成中间掩膜。
- 经过计算后,即可生成特征。
看起来是这样的。然后是两个步骤(黑线)
- 将一个阶段生成的特征转换为 CNN
- 通过卷积层后,会生成一个掩码。
- 使用掩码开始无噪声语音估算
- 使用压缩方法可产生无噪音的声音。
因此,按照这个顺序,就能在提高计算效率的同时实现有效的语音增强--通过在第一阶段进行更复杂的处理,并在第二阶段使用轻量级 CNN,就能在降低整体计算负荷的同时实现高质量的语音增强。
噪声抑制实验的结果如何?两个主观测试和两个客观测试...
您提出了一个模型,以尽可能少的计算量构建一个小型 DNN。
正如我在开头提到的,结果是成功地实现了小型化,同时保持了最先进的性能。
这次提出的机型就是上图中的紫色机型,其性能之高,丝毫不逊于其他机型。
现在让我们来看看评估过程。
该模型采用主观和客观两类测试来衡量结果。
我们先来看看主观测试。这就是上图所示的实验。我们要做的就是准备几个听众,让他们听音频。结果会被量化,以显示他们所听音频的效果如何。从上图可以看出,结果非常好。
客观测试使用专门指标测量语音质量和语音失真。无需赘述,失真测试的结果很好,但语音质量却不尽如人意。
重新思考 "正常 "并创造 "唯一 "是很困难的...这就是为什么它如此有趣
质疑显而易见的事情是非常困难的。如果你认为显而易见是理所当然的,那么你就会更容易融入周围的环境,但另一方面,你可能会因为质疑 "显而易见 "而遭到周围人异样的眼光。然而,"发现 "并不是一件完全 "不寻常 "的事,而是一件出人意料的平常事。
在你的研究和个人生活中,你为什么不尝试质疑常规呢?当你不习惯的时候,这是很困难的,你无法改变你的思维方式,因为它已经根深蒂固,不是吗?有困难才有趣。发现新事物是一种刺激,为一成不变的生活增添色彩。
是的。因此,在这篇文章中,我介绍了一项关于噪声抑制的研究,它对显而易见的事实提出了质疑,并产生了新的结果。如果我们能满足您的求知欲,哪怕只是一点点,我们也会感到非常高兴。
到时见!下篇文章再见~!
与女作家小笠原聊聊天
我们正在寻找有兴趣开展联合研究的公司和研究生!
他的专长是语音识别(实验系统),尤其是针对肢体障碍者。
这方面的资源有限,因此单独工作总是有限的。
谁愿意利用最新技术共同解决社会问题?
与本文相关的类别