
一项极具挑战性的分类任务!使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征
三个要点
✔️ 针对构音障碍提出了新的特征提取算法(WHFEMD)
✔️ 对构音障碍特有的口齿不清和不稳定特征具有抵抗力
✔️ 与以前的算法相比,提高了构音障碍严重程度分类的准确性
Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform
written by Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang
(Submitted on 30 Dec 2023)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Signal Processing (eess.SP)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
为了准确、高效地捕捉语言障碍的特征...
刚读到这个!论文超级摘要!
在当今世界,通过语音控制智能手机和智能电器等任何设备来快速、轻松地处理家务和工作确实非常方便。
这种便利得益于人工智能的发展,它大大提高了语音识别率。现在,你知道构音障碍是什么吗?好吧,如果你正在阅读这篇文章,你可能对它有一定程度的了解,但对于那些对它一无所知的人来说,这里有一个小小的解释。
构音障碍是一种疾病,患者能理解语言,但由于神经系统异常而无法正确发音。这种疾病最有名的例子是脑瘫患者,如渐冻症患者,但也有不是由鼻子或其他因素引起的先天性构音障碍。
虽然不局限于当代,但我认为语言信息在与他人交流时极为重要。然而,虽然构音障碍患者有自己的创造力,但他们中的许多人却无法顺利地与他人沟通,难以与他人交流。
在本文中,我们将介绍一篇论文,试图为有这种构音障碍的人提供帮助。
正如我在开头所说,语音操作电子设备非常方便,即使不擅长使用机器的人也能轻松操作,所以我觉得这是一项真正方便用户的技术。然而,有嗓音障碍的听障人士却享受不到这种便利。
这是因为现有的系统是为正常人使用而设计的,并没有采用能准确处理阅读障碍语音的技术。
因此,本研究重点关注发音不清和不稳定的语音特征,并提出了一种有效的捕捉方法。
更进一步说,该项目旨在准确捕捉发音障碍者复杂的语音特征,并利用这些特征对发音障碍的严重程度进行分类,然后用于医学诊断和治疗规划。
本文提出的算法称为 WHFEMD。与传统方法相比,该算法能更准确地对构音障碍的严重程度进行分类。
以往的研究通常使用 MFCC 和 LPC 等声学特征来分析听障语音,但这些方法无法充分捕捉其语音特征。本研究中的算法能够准确捕捉其复杂的语音特征,从而提高了分类的准确性。
现在简要介绍一下论文内容。到目前为止,严重程度的分类一直由医生和语言病理学家完成,因为传统方法缺乏准确性。然而,人的判断是主观的,缺乏客观性,最重要的是,做出判断的人必须承担相当大的负担。
您是否对今天的主菜 "WHFEMD "感到好奇,它的算法和结果究竟如何?
在下一节中,我们将进行更深入的讲解!如果您感兴趣,请跟我们一起看完。
WHFEMD 的结构是什么?
在。这是拟议算法的概念图!里面全是我不认识的缩写词...瓦卡兰
别担心,我会逐一解释清楚!
音频首先要经过FFT,这是一种称为快速傅里叶变换的信号处理,它将音频信号转换到频域、
接下来是 EMD,即经验模式分解,将信号分解为多个固有模式函数(IMF)。这样就能捕捉到信号中不透明和不稳定的特征。
用一种非常简单的方式来解释 IMF,就是将复杂的信号分解成一系列简单的波形。打个音乐上的比方,这就好比把管弦乐队分解成一个个乐器单元。
FWHT 是一种称为快速沃尔什-阿达玛变换(Fast Walsh-Adamar Transform)的过程,但其理论相当复杂,因此只需记住它在本例中也用于特征提取即可。
一旦完成特征提取,就会输出输入语音的标签(症状程度)。用于构音障碍分类任务时,输入语音会输出标签(症状程度)。
接下来,让我们看看该方法的绩效评估!
....
我们使用UAspeech 和 TORGO 这两个语障语料库对该方法进行了评估。
两者都是著名的语料库,因此,如果您对这一发音障碍领域感兴趣,就应该记住它们--UA 易于用于研究,因为它根据严重程度对说话者进行了分类,而且数据量非常完美,因为它包含了多次朗读单词的语音记录。相比之下,TORGO 每个说话者的读出次数较少,而且录音质量不佳,语音嘈杂。
这是不可避免的,因为它们的制作年代不同。
因此,我们将其性能与最先进的分类任务进行了比较。结果表明,所提出的方法与最先进的方法性能相当!
我认为,这种表现得益于对发音障碍的具体特征的关注,以及选择了与之相匹配的机制。
研究人员也有自己的配色方案......
现在,我们已经研究了构音障碍的分类任务方法。在我开始撰写这篇论文的半年时间里,我阅读了十几篇论文,正如我所说的,在构音障碍领域,有很多关于分类任务的研究。
现场就这么需要这项技术吗?就我个人而言,我希望看到语音识别技术取得更多进展。
即使是在同一个分类任务中,每个研究人员都有自己的色彩,如果仅仅以成绩来评判,那就太浪费了。
我读到的一些论文对当今研究分类任务的方式是一个打击。
此外,还应密切关注语言障碍领域未来的研究趋势!
本期就到这里吧?下期文章再见~。
与女作家小笠原聊聊天
我们正在寻找有兴趣开展联合研究的公司和研究生!
他的专长是语音识别(实验系统),尤其是针对肢体障碍者。
这方面的资源有限,因此单独工作总是有限的。
谁愿意利用最新技术共同解决社会问题?
与本文相关的类别