语音识别文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

MATE：多代理无障碍模式转换框架

12/08/2025

多扬声器语音识别的新浪潮：使用 DiCoW 和 DiariZen 的高精度系统的挑战

多扬声器语音识别的新浪潮：使用 DiCoW 和 DiariZen 的高 ...

03/07/2025

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

18/02/2025 肢体瘫痪者的语音识别功能

SpeechT5 是一种革命性的语音处理模式！微软 SpeechT5 语音处理模型的惊人性能

SpeechT5 是一种革命性的语音处理模式！微软 SpeechT5 ...

17/02/2025 声音

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

14/02/2025 肢体瘫痪者的语音识别功能

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分 ...

14/02/2025 肢体瘫痪者的语音识别功能

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

13/02/2025 肢体瘫痪者的语音识别功能

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

10/02/2025 肢体瘫痪者的语音识别功能

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

07/02/2025 噪声抑制

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

24/01/2025 大型语言模型

[Be Who You Are: ....]不抛弃听力障碍者或老年人：使用 A2A 转换器提高语音识别率

[Be Who You Are: ....]不抛弃听力障碍者或老年人： ...

25/12/2024 肢体瘫痪者的语音识别功能

创新的语音情感识别：利用 WavLM Large 探索性别信息整合和高级汇集方法

创新的语音情感识别：利用 WavLM Large 探索性别信息整合和高 ...

18/10/2024 大型语言模型

Furhat 机器人，利用大规模语言模型实现自然的面部表情和对话

13/10/2024 大型语言模型

[WavLM]超越所有语音识别模型！结构和性能如何？

30/09/2024 语音处理

连听力障碍者都想使用语音激活系统！"。什么是语音激活系统的语料库和语音激活系统？

连听力障碍者都想使用语音激活系统！"。什么是语音激活系统的语料库和语音 ...

28/09/2024 声音

语音识别

MATE：多代理无障碍模式转换框架

MATE：多代理无障碍模式转换框架

多扬声器语音识别的新浪潮：使用 DiCoW 和 DiariZen 的高精度系统的挑战

多扬声器语音识别的新浪潮：使用 DiCoW 和 DiariZen 的高 ...

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

SpeechT5 是一种革命性的语音处理模式！微软 SpeechT5 语音处理模型的惊人性能

SpeechT5 是一种革命性的语音处理模式！微软 SpeechT5 ...

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分 ...

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

CLAP-IPA：通过语音和 IPA 序列的对比学习获得多语言语音表征

CLAP-IPA：通过语音和 IPA 序列的对比学习获得多语言语音表征

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

[Be Who You Are: ....]不抛弃听力障碍者或老年人：使用 A2A 转换器提高语音识别率

[Be Who You Are: ....]不抛弃听力障碍者或老年人： ...

创新的语音情感识别：利用 WavLM Large 探索性别信息整合和高级汇集方法

创新的语音情感识别：利用 WavLM Large 探索性别信息整合和高 ...

Furhat 机器人，利用大规模语言模型实现自然的面部表情和对话

Furhat 机器人，利用大规模语言模型实现自然的面部表情和对话

[WavLM]超越所有语音识别模型！结构和性能如何？

[WavLM]超越所有语音识别模型！结构和性能如何？

连听力障碍者都想使用语音激活系统！"。什么是语音激活系统的语料库和语音激活系统？

连听力障碍者都想使用语音激活系统！"。什么是语音激活系统的语料库和语音 ...