赶上最新的AI论文

什么是AI-SCHOLAR？

MATE：多代理无障碍模式转换框架

MATE：多代理无障碍模式转换框架

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...

04/02/2025 肢体瘫痪者的语音识别功能

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

29/01/2025 神经网络

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

24/01/2025 大型语言模型

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 22 KHz 音频

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 2 ...

10/07/2024 文字转语音

[VoiceCraft] 业界最高水平的自然语音合成语言模型

[VoiceCraft] 业界最高水平的自然语音合成语言模型

01/07/2024 文字转语音

[MusicLDM] 低剽窃风险的文本到音乐模型

[MusicLDM] 低剽窃风险的文本到音乐模型

22/01/2024 扩散模型

[CLAP] 语音和文本对比学习模型

[CLAP] 语音和文本对比学习模型

21/12/2023 对比学习

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

20/11/2023 对比学习

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们的技术。

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们 ...

05/08/2022 CVPR

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

19/07/2022 文字转语音