赶上最新的AI论文

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

肢体瘫痪者的语音识别功能

三个要点
✔️ 针对 Whisper 模型提出了一种使用 P-Tuning 的扬声器适应方法
✔️ 所提出的方法将 CER 提高了 13%。

✔️ 该方法非常灵活,在各种配置下都能提高性能

Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition
written by Yicong Jiang,Tianzi Wang,Xurong Xie,Juan Liu,Wei Sun,Nan Yan,Hui Chen,Lan Wang,Xunying Liu,Feng Tian
[Submitted on 14 Jun 2024]
Comments:   Accepted by interspeech 2024
Subjects:   Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Sound (cs.SD)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

让每个人都能享受科技带来的好处...

刚读到这个!论文超级摘要!

你不觉得近年来语音识别的准确性有了很大提高吗?例如,IOS 的 Siri 和安卓的谷歌助手。例如,你现在可以问用户 "放点音乐!"或 "今天天气怎么样?"你可以用语音控制各种事物。

在这种情况下,一个名为 whisper 的语音识别模型出现了,它是 OpenAI 公司(一家以 chatGPT 而闻名的公司)推出的高性能大规模模型,其模型性能甚至超过了谷歌,一时间吸引了人们的关注。

现在,这篇论文是关于使用耳语模型的说话者适应性研究。它试图通过单独学习有发音问题、不能很好使用语音识别的人的声音来提高识别准确率。

发音障碍者的主要病因是神经系统受损,从而难以控制与发音有关的肌肉,导致发音含糊不清和不稳定。这也使得机器学习难以收集大量数据集,这也是肢体障碍语音识别领域的研究没有取得进展的原因之一。

本文主要探讨两个问题:提高构音障碍说话者的语音识别率,以及在有限数据条件下提出有效的说话者适应方法

研究结果表明,与耳语基线相比,所提出的方法成功地将文本错误率降低了 13%。研究还表明,该方法对严重的语音障碍特别有效

现在,人们认为传统的发音障碍语音识别需要专门的模型和复杂的说话者适应方法。然而,这项研究表明,通过将大规模预训练模型(whisper)与高效的适应方法相结合,有可能实现更高的识别准确率

我们需要找到更简便的适应和识别方法,让所有有构音障碍的人和没有构音障碍的人都能平等地受益于科学技术,并帮助有构音障碍的人进行交流。

如何将扬声器适应算法纳入耳语...

非常感谢你们读到这里!

如果你读到这里,说明你对这篇论文感兴趣,对吗?下面我将详细介绍...

现在请看上图。没有人能够在瞬间理解这一点。我会慢慢解释,尽可能详细。我认为这是本文非常重要和有趣的部分

下面我将向大家简要介绍这一架构的流程。

  1. 输入过程
  2. 迅速生成
  3. 耳语模式处理。
  4. 解码
  5. 适应机制

第一步是输入过程。您可能已经猜到了,这就是输入语音特征的地方。

当这些特征离开输出层时,会产生一种叫做 "扬声器提示 "的东西。具体细节我就不多说了。它被传递给耳语模型,经过两个卷积层后,再传递给变压器编码器。

现在,编码器处理完文本后,就会将其传递给解码器,由解码器生成文本输出。

在输入前后使用说话者提示,为模型提供特定说话者的信息,使模型能够适应个别说话者的特点,提高识别准确率。

我希望你至少能掌握其中的要点,尽管这只是一个相当乏味的解释。深入理解这类建筑是非常困难的。不过,建筑的精髓往往就在浅显的知识中,所以我想,如果你至少能理解一些,那就再好不过了。

现在是否已认识到语言障碍...

最后,让我们看看这项研究的结果如何?请看上表。它比较了不同模型和不同适应方法在识别听力障碍语音时的表现

这就是我们这次要比较的五种模式。这次提出的模式是最低的模式,即 whisper-PP

最后,与其他模型相比,建议的方法表现最佳。普通耳语的表现也仅次于它,因此它可能能很好地处理听力障碍语音。

在识别严重听力障碍者(FJ1)的语音时,所提出的方法仍然表现出色,并将 CER 提高了 7%虽然保形器是最新的语音识别模型,但它在识别他们的语音时却很吃力。毕竟,并不是因为它是最新的,就一定能很好地识别他们的语音......

实验中使用的模型有:Conformer 是最新的语音识别模型,TDNN 是时延神经网络,其余的直接来自 whisper,这是另一种久经考验的扬声器适配方法,也是本研究中的一种,对吗?

所有评价指标都使用CER(字符错误率),即通过比较语音识别结果和原文,衡量每个字符有多少错误。这只是错误率,因此数字越小,性能越好

总体实验结果表明,所提出的方法在所有任务中的表现都优于其他模型。这一结果表明,这种扬声器适配方法能够准确、高效地提取扬声器特征并将其整合到模型中

确保残疾人和健全人无论残疾与否都能享受同等的便利....

这听起来可能有点极端,但这个世界上根本就没有所谓的平等。如今,有些人大声鼓吹这是一个多元化的时代,人人平等,但这不过是纸上谈兵

毕竟,这个世界上有各种各样的人,比如健全人和残疾人就有明显的区别。这个世界真正需要的不是平等,而是体贴,或是一颗伸出援助之手的善良之心

尽管如此,我还是希望每个人至少都能平等地享受科学技术带来的便利,我认为这一点必须实现

研究人员每天都在探索,以实现一个人人都能享受同等便利的社会,不是吗?这很酷,我很钦佩!

因此,在这篇文章中,我们探讨了能够正确识别听力障碍语音的扬声器适配方法。大家都掌握了吗?希望你们能学到更多。

到时见!下篇文章再见~!

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生!

他的专长是语音识别(实验系统),尤其是针对肢体障碍者

这方面的资源有限,因此单独工作总是有限的

谁愿意利用最新技术共同解决社会问题?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们