文字转语音文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

MATE：多代理无障碍模式转换框架

12/08/2025

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

04/02/2025 肢体瘫痪者的语音识别功能

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

29/01/2025 神经网络

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

24/01/2025 大型语言模型

生成听力障碍语音！解决训练数据不足的神奇数据扩展技术是什么？

26/07/2024 声音

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 22 KHz 音频

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 2 ...

10/07/2024 文字转语音

[VoiceCraft] 业界最高水平的自然语音合成语言模型

01/07/2024 文字转语音

[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造者的关键在于

文字转语音

MATE：多代理无障碍模式转换框架

MATE：多代理无障碍模式转换框架

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

生成听力障碍语音！解决训练数据不足的神奇数据扩展技术是什么？

生成听力障碍语音！解决训练数据不足的神奇数据扩展技术是什么？

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 22 KHz 音频

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 2 ...

[VoiceCraft] 业界最高水平的自然语音合成语言模型

[VoiceCraft] 业界最高水平的自然语音合成语言模型

[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造者的关键在于

[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造 ...

[MusicLDM] 低剽窃风险的文本到音乐模型

[MusicLDM] 低剽窃风险的文本到音乐模型

AudioLDM]使用潜在扩散的文本到音频生成模型

AudioLDM]使用潜在扩散的文本到音频生成模型

[CoDi]可处理几乎所有模式的任意扩散模型

[CoDi]可处理几乎所有模式的任意扩散模型

[CLAP] 语音和文本对比学习模型

[CLAP] 语音和文本对比学习模型

Brain2Music] 根据大脑信息自动生成音乐。

Brain2Music] 根据大脑信息自动生成音乐。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[MuLan] 使用对比学习的多模态音乐-文本。

[MuLan] 使用对比学习的多模态音乐-文本。

[MusicLM]谷歌开发的文本到音乐生成模型。

[MusicLM]谷歌开发的文本到音乐生成模型。