赶上最新的AI论文

什么是AI-SCHOLAR？

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

噪声抑制 07/02/2025

三个要点
✔️ 成功开发出无结构复杂性的 DNN！
显著降低了计算复杂度和模型大小，同时保持了最先进的性能
✔️ 两阶段处理框架兼顾了计算效率和语音增强性能
✔️ 改进的声源压缩方法提高了主观测试性能

Ultra Low Complexity Deep Learning Based Noise Suppression
written by Shrishti Saha Shetu,Soumitro Chakrabarty,Oliver Thiergart,Edwin Mabande
[Submitted on 13 Dec 2023]
Subjects: Audio and Speech Processing (eess.AS); Machine Learning (cs.LG); Signal Processing (eess.SP)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

以更清晰、更可听的声音为目标...

刚读到这个！论文超级摘要！

很多人都有过这样的经历：过去，电话和录音中会有一些粗糙的噪音，但现在，现代电话和录音中已经感觉不到什么噪音了。嗯！我不在乎这个、

别这么说...这背后的技术是噪声抑制（去噪）。在机器学习之前，主流的方法是查看音频信号的波形，看看如何处理噪声，简单地说就是去噪。

然而，机器学习也存在一些问题。学习所需的计算量非常大，因此模型的大小也会随之增大。这使得它无法在计算能力有限的小型设备（如智能手机）上使用、

本文探讨了如何在保持高性能去噪的同时降低计算复杂度的问题。

其结果是，计算复杂度和模型大小减少了约 80%，而处理性能却与最先进的模型相同。

以前，人们普遍认为需要更大的模型才能实现高性能。然而，这项研究表明，更高效、更有效的架构和压缩方法比模型的大小更重要。

在语音识别领域，也出现了扩大模型的浪潮，但建立大型模型需要大量数据和资金，大学无法与之竞争。

但是，在审查模型和提高效率方面，情况就不同了。反思传统、追求高效是大学教授的特长，所以我认为未来会有更多来自大学的人工智能模型出现，它们在小型设备上的应用也会越来越普及。

什么是两阶段处理框架？它有什么结构...

非常感谢你们读到这里！

如果你读到这里，说明你对这篇论文感兴趣，对吗？下面我将详细介绍...

现在请看上图。没有人能够在瞬间理解这一点。我会慢慢解释，尽可能详细。我认为这是本文非常重要和有趣的部分。

我想解释一下两阶段处理框架，这是本文提出的模式，我在前面的总摘要中简单提到过，尽管这也很简短。

在介绍主机之前，让我们先来回顾一下这款机型的研发背景。噪音抑制领域，也就是本文的主题，是通过一种名为语音信号处理的方法完成的。这种方法已被机器学习所取代。但机器学习的计算成本高昂，模型庞大，因此很难应用于小型设备。

换句话说，我们想要机器学习的惊人高性能！但是，我们也希望能有足够小的规模来实现它。

现在我们来看看模型的结构。我们从第一阶段（红色虚线）开始。

输入噪声信号
对信号进行预处理并提取特征。
每个音频信号通道都经过处理
分为几个部分，每个部分都有自己的处理方法。
分离后的特征再次合并，生成中间掩膜。
经过计算后，即可生成特征。

看起来是这样的。然后是两个步骤（黑线）

将一个阶段生成的特征转换为 CNN
通过卷积层后，会生成一个掩码。
使用掩码开始无噪声语音估算
使用压缩方法可产生无噪音的声音。

因此，按照这个顺序，就能在提高计算效率的同时实现有效的语音增强--通过在第一阶段进行更复杂的处理，并在第二阶段使用轻量级 CNN，就能在降低整体计算负荷的同时实现高质量的语音增强。

噪声抑制实验的结果如何？两个主观测试和两个客观测试...

您提出了一个模型，以尽可能少的计算量构建一个小型 DNN。

正如我在开头提到的，结果是成功地实现了小型化，同时保持了最先进的性能。

这次提出的机型就是上图中的紫色机型，其性能之高，丝毫不逊于其他机型。

现在让我们来看看评估过程。

该模型采用主观和客观两类测试来衡量结果。

我们先来看看主观测试。这就是上图所示的实验。我们要做的就是准备几个听众，让他们听音频。结果会被量化，以显示他们所听音频的效果如何。从上图可以看出，结果非常好。

客观测试使用专门指标测量语音质量和语音失真。无需赘述，失真测试的结果很好，但语音质量却不尽如人意。

重新思考 "正常 "并创造 "唯一 "是很困难的...这就是为什么它如此有趣

质疑显而易见的事情是非常困难的。如果你认为显而易见是理所当然的，那么你就会更容易融入周围的环境，但另一方面，你可能会因为质疑 "显而易见 "而遭到周围人异样的眼光。然而，"发现 "并不是一件完全 "不寻常 "的事，而是一件出人意料的平常事。

在你的研究和个人生活中，你为什么不尝试质疑常规呢？当你不习惯的时候，这是很困难的，你无法改变你的思维方式，因为它已经根深蒂固，不是吗？有困难才有趣。发现新事物是一种刺激，为一成不变的生活增添色彩。

是的。因此，在这篇文章中，我介绍了一项关于噪声抑制的研究，它对显而易见的事实提出了质疑，并产生了新的结果。如果我们能满足您的求知欲，哪怕只是一点点，我们也会感到非常高兴。

到时见！下篇文章再见~！

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生！

他的专长是语音识别（实验系统），尤其是针对肢体障碍者。

这方面的资源有限，因此单独工作总是有限的。

谁愿意利用最新技术共同解决社会问题？

与本文相关的类别

アサさん

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。