一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

肢体瘫痪者的语音识别功能 14/02/2025

三个要点
✔️ 针对构音障碍提出了新的特征提取算法（WHFEMD）
✔️ 对构音障碍特有的口齿不清和不稳定特征具有抵抗力
✔️ 与以前的算法相比，提高了构音障碍严重程度分类的准确性

Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform
written by Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang
(Submitted on 30 Dec 2023)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Signal Processing (eess.SP)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

为了准确、高效地捕捉语言障碍的特征...

刚读到这个！论文超级摘要！

在当今世界，通过语音控制智能手机和智能电器等任何设备来快速、轻松地处理家务和工作确实非常方便。

这种便利得益于人工智能的发展，它大大提高了语音识别率。现在，你知道构音障碍是什么吗？好吧，如果你正在阅读这篇文章，你可能对它有一定程度的了解，但对于那些对它一无所知的人来说，这里有一个小小的解释。

构音障碍是一种疾病，患者能理解语言，但由于神经系统异常而无法正确发音。这种疾病最有名的例子是脑瘫患者，如渐冻症患者，但也有不是由鼻子或其他因素引起的先天性构音障碍。

虽然不局限于当代，但我认为语言信息在与他人交流时极为重要。然而，虽然构音障碍患者有自己的创造力，但他们中的许多人却无法顺利地与他人沟通，难以与他人交流。

在本文中，我们将介绍一篇论文，试图为有这种构音障碍的人提供帮助。

正如我在开头所说，语音操作电子设备非常方便，即使不擅长使用机器的人也能轻松操作，所以我觉得这是一项真正方便用户的技术。然而，有嗓音障碍的听障人士却享受不到这种便利。

这是因为现有的系统是为正常人使用而设计的，并没有采用能准确处理阅读障碍语音的技术。

因此，本研究重点关注发音不清和不稳定的语音特征，并提出了一种有效的捕捉方法。

更进一步说，该项目旨在准确捕捉发音障碍者复杂的语音特征，并利用这些特征对发音障碍的严重程度进行分类，然后用于医学诊断和治疗规划。

本文提出的算法称为 WHFEMD。与传统方法相比，该算法能更准确地对构音障碍的严重程度进行分类。

以往的研究通常使用 MFCC 和 LPC 等声学特征来分析听障语音，但这些方法无法充分捕捉其语音特征。本研究中的算法能够准确捕捉其复杂的语音特征，从而提高了分类的准确性。

现在简要介绍一下论文内容。到目前为止，严重程度的分类一直由医生和语言病理学家完成，因为传统方法缺乏准确性。然而，人的判断是主观的，缺乏客观性，最重要的是，做出判断的人必须承担相当大的负担。

您是否对今天的主菜 "WHFEMD "感到好奇，它的算法和结果究竟如何？

在下一节中，我们将进行更深入的讲解！如果您感兴趣，请跟我们一起看完。

WHFEMD 的结构是什么？

在。这是拟议算法的概念图！里面全是我不认识的缩写词...瓦卡兰

别担心，我会逐一解释清楚！

音频首先要经过FFT，这是一种称为快速傅里叶变换的信号处理，它将音频信号转换到频域、

接下来是 EMD，即经验模式分解，将信号分解为多个固有模式函数（IMF）。这样就能捕捉到信号中不透明和不稳定的特征。

用一种非常简单的方式来解释 IMF，就是将复杂的信号分解成一系列简单的波形。打个音乐上的比方，这就好比把管弦乐队分解成一个个乐器单元。

FWHT 是一种称为快速沃尔什-阿达玛变换（Fast Walsh-Adamar Transform）的过程，但其理论相当复杂，因此只需记住它在本例中也用于特征提取即可。

一旦完成特征提取，就会输出输入语音的标签（症状程度）。用于构音障碍分类任务时，输入语音会输出标签（症状程度）。

接下来，让我们看看该方法的绩效评估！

....

我们使用UAspeech 和 TORGO 这两个语障语料库对该方法进行了评估。

两者都是著名的语料库，因此，如果您对这一发音障碍领域感兴趣，就应该记住它们--UA 易于用于研究，因为它根据严重程度对说话者进行了分类，而且数据量非常完美，因为它包含了多次朗读单词的语音记录。相比之下，TORGO 每个说话者的读出次数较少，而且录音质量不佳，语音嘈杂。

这是不可避免的，因为它们的制作年代不同。

因此，我们将其性能与最先进的分类任务进行了比较。结果表明，所提出的方法与最先进的方法性能相当！

我认为，这种表现得益于对发音障碍的具体特征的关注，以及选择了与之相匹配的机制。

研究人员也有自己的配色方案......

现在，我们已经研究了构音障碍的分类任务方法。在我开始撰写这篇论文的半年时间里，我阅读了十几篇论文，正如我所说的，在构音障碍领域，有很多关于分类任务的研究。

现场就这么需要这项技术吗？就我个人而言，我希望看到语音识别技术取得更多进展。

即使是在同一个分类任务中，每个研究人员都有自己的色彩，如果仅仅以成绩来评判，那就太浪费了。

我读到的一些论文对当今研究分类任务的方式是一个打击。

此外，还应密切关注语言障碍领域未来的研究趋势！

本期就到这里吧？下期文章再见~。

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生！

他的专长是语音识别（实验系统），尤其是针对肢体障碍者。

这方面的资源有限，因此单独工作总是有限的。

谁愿意利用最新技术共同解决社会问题？

与本文相关的类别

アサさん

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

为了准确、高效地捕捉语言障碍的特征...

刚读到这个！论文超级摘要！

WHFEMD 的结构是什么？

....

研究人员也有自己的配色方案......

与女作家小笠原聊聊天

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

[Be Who You Are: ....]不抛弃听力障碍者或老年人：使用 A2A 转换器提高语音识别率

[Be Who You Are: ....]不抛弃听力障碍者或老年人： ...