论文文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

18/02/2025 肢体瘫痪者的语音识别功能

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

14/02/2025 肢体瘫痪者的语音识别功能

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

13/02/2025 肢体瘫痪者的语音识别功能

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

10/02/2025 肢体瘫痪者的语音识别功能

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

07/02/2025 噪声抑制

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

04/02/2025 肢体瘫痪者的语音识别功能

MVANet：最强大的背景消除模型

31/01/2025 神经网络

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

29/01/2025 神经网络

PosterLlama：语言模型设计能力和内容感知布局生成

28/01/2025 布局生成

MaskDiT：用于图像生成的低学习成本扩散模型

27/01/2025 生成图像

从制造业机器人操作演示中学习的路线图

22/01/2025 机器人

根据产品类别和品牌风格生成电子商务背景图片

17/01/2025 生成图像

论文

稳定流：图像生成背后 "真正重要的层次 "可视化

稳定流：图像生成背后 "真正重要的层次 "可视化

通过 OWL-ViT 实现开放词汇对象检测

通过 OWL-ViT 实现开放词汇对象检测

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

[DrHouse]利用传感器信息和专业知识的诊断系统

[DrHouse]利用传感器信息和专业知识的诊断系统

全面调查钢铁行业基于人工智能的预测性维护的现状和挑战

全面调查钢铁行业基于人工智能的预测性维护的现状和挑战

利用信息熵和 CRReLU 优化激活函数的方法

利用信息熵和 CRReLU 优化激活函数的方法

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

质疑 "规范"！使用超低复杂度 DNN 抑制噪音

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

MVANet：最强大的背景消除模型

MVANet：最强大的背景消除模型

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

PosterLlama：语言模型设计能力和内容感知布局生成

PosterLlama：语言模型设计能力和内容感知布局生成

MaskDiT：用于图像生成的低学习成本扩散模型

MaskDiT：用于图像生成的低学习成本扩散模型

从制造业机器人操作演示中学习的路线图

从制造业机器人操作演示中学习的路线图

根据产品类别和品牌风格生成电子商务背景图片

根据产品类别和品牌风格生成电子商务背景图片