
一篇推翻传统观点的论文!听力障碍者是根据噪音而不是根据他们的特征进行分类的!
三个要点
✔️ UAspeech 和 TORGO 测试版基础在录音环境方面存在显著差异
✔️ 在许多情况下,学习的是噪音部分而不是语音部分
✔️ 以前的研究学习的可能是录音环境的差异,而不是发音障碍的特征
On using the UA-Speech and TORGO databases to validate automatic dysarthric speech classification approaches
written byGuilherme Schu, Parvaneh Janbakhshi, Ina Kodrasi
(Submitted on 16 Nov 2022)
Comments: Submitted to ICASSP 2023
Subjects: Audio and Speech Processing (eess.AS)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
对显而易见的事物提出质疑,会带来新的发现...
刚读到这个!论文超级摘要!
您知道什么是构音障碍吗?构音障碍是一种疾病,患者能理解语言,但由于各种因素无法正确说话。它是亟待解决的社会问题之一,在日本估计有300 万人患有这种疾病。
语言在与人交流时非常重要。它们在与他人的交流中占了很大一部分。然而,构音障碍患者往往难以自如地运用语言,这使他们难以顺利地进行交流,并常常感到不自在。
本文介绍了一个自动对此类构音障碍进行分类的系统。这个项目的关键是两个数据集,即 UAspeech 和 TORGO。这两个数据集有一个共同点:它们都包含大量构音障碍者的语音录音。它们都是非常知名的数据集,因此被用于构音障碍领域的各种论文中。
现在我们来谈谈主要问题。构音障碍是一种通常由脑损伤或神经系统损伤引起的疾病。众所周知的一种疾病就是渐冻人症。此外,还有先天因素和后天原因导致的构音障碍。
由于医生的主观判断,构音障碍的诊断非常困难且耗时。因此,人们开始研究和开发可自动诊断构音障碍的系统,上述两组数据被广泛用作评估指标。
本研究探讨的问题涉及这两个数据集的质量。特别是,健全人和残疾人在记录环境和记录设置上的差异会如何影响系统的评估。
结果表明,在两个数据集之间,健康人和残疾人录音的信噪比(语音中包含噪音的程度)存在显著差异。我们还发现,对于许多最先进的分类方法来说,使用非语音部分(噪音)比使用语音部分显示出更好的分类准确性。
在以前的研究中,人们并不认为数据集记录环境的差异会对系统的性能产生重大影响。然而,本研究的结果表明,在许多系统中,它们实际上很可能并不是在学习构音障碍的特征,而是在学习记录环境的差异。
现在有一点补充。有些读者可能想知道不同的录音环境如何提高构音障碍分类的准确性?什么叫学习噪音部分?您可能会想
简单回顾一下发音障碍的言语特征,就会发现他们的言语含糊不清且不规则。本文指出的正是这种"不规则"。他们说话时使用的肌肉力量减弱,因此在正常人听来,他们说话非常有力。
因此,在它们发声之前不可避免地需要一段时间。因此,发声前的录音时间就变成了非语言语音,即噪音。正常人的语音是流畅的,因此非语音段很短。
这意味着传统的系统是:健全人 = 噪音小。残疾人 = 噪音大。这意味着传统系统没有了解残疾人的具体特点。
有哪些分类方法?
现在,让我们再深入研究一下本文。请看上图。该图显示了本文对构音障碍进行分类的方法。
本文主要采用三种方法。
- 支持向量机 (SVM)
- CNN 和 SRL。
- 多层感知器与 wav2vec 相结合。
SVM 是一种著名的分类算法,主要应用于图像识别领域,而 CNN 和多层感知器则是最著名的机器学习方法之一。
再解释一下 wav2vec,这是一种语音识别模型,主要用于语音识别领域。它的特点是使用了一种名为变压器的机制。变压器机制是一项相当创新的技术,在它诞生之前和之后,语音识别的准确度相差一到三个等级。
目前使用的主要语音识别模型都采用了这种机制。
现在让我们看看演示结果如何!一起来看看吧
分类结果见 ....
让我们从 UAspeech 的结果开始。
再次回顾一下,您在这篇论文中想要说明的不是哪种分类方法更好,而是通过噪声时间而不是通过学习其特征来对听力障碍语音进行分类。
现在,回到图上...哦 是真的 Oh!是真的
图中的数字是正确答案的百分比[%],因此数字越大,结果越好。例如,如果您看最上面的 SVM+openSMILE,您会发现语音正确率为 81% 非语音正确率为 84%。
从其他方法来看,非语音的分类准确率更高。因此,正如论文中指出的那样,噪声时间被用于分类,而不是构音障碍的语音特征,这正是我们最初想用于构音障碍分类的原因。
下一个是 TORGO。它的准确性总体上不如 UAspeech。
我使用过这两个数据集,但总体感觉TORGO 的录音质量不是很好,有很多噪音。这一因素也真实地反映在实验结果中。
几乎与此类似,非语音更准确--如果您在两个数据集上进行测试,结果都一样,那么您想在论文中提出的假设就很有可能是正确的。
我将多次提到这一点,因为它在本文中非常重要,但底线是,以前被认为是为了学习残疾人特征而制造的系统,实际上很有可能是根据噪音时间的长短和其他记录环境因素进行分类的。
这张纸是一个惊喜盒和--
这又是一篇令人惊讶的论文。的确,从我们人类的角度来看,机器学习的特征提取和分类流程就像一个黑盒子。
它只能提出一个假设,并通过实验证明假设是正确的。更糟糕的是,乍一看,通过学习构音障碍的特征,分类的准确性似乎得到了提高。
有必要认真研究采取何种方法才能掌握构音障碍的具体特征,并达到较高的准确度。
与女作家小笠原聊聊天
我们正在寻找有兴趣开展联合研究的公司和研究生!
他的专长是语音识别(实验系统),尤其是针对肢体障碍者。
这方面的资源有限,因此单独工作总是有限的。
谁愿意利用最新技术共同解决社会问题?
与本文相关的类别