赶上最新的AI论文

什么是AI-SCHOLAR？

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 22 KHz 音频

[HiFi-GAN]基于 GAN 的声码器，能在单 GPU 上生成 2 ...

10/07/2024 文字转语音

潜在扩散模型不一定会 "扩大规模"

潜在扩散模型不一定会 "扩大规模"

10/07/2024 扩散模型

[Mustango] 使用音乐领域知识的音乐生成模型

[Mustango] 使用音乐领域知识的音乐生成模型

01/07/2024 音频和语音处理

[VoiceCraft] 业界最高水平的自然语音合成语言模型

[VoiceCraft] 业界最高水平的自然语音合成语言模型

01/07/2024 文字转语音

[AlphaCodium] 性能最高的编程代码生成方法

[AlphaCodium] 性能最高的编程代码生成方法

30/05/2024 大型语言模型

[MusicLDM] 低剽窃风险的文本到音乐模型

[MusicLDM] 低剽窃风险的文本到音乐模型

22/01/2024 扩散模型

AudioLDM]使用潜在扩散的文本到音频生成模型

AudioLDM]使用潜在扩散的文本到音频生成模型

16/01/2024 扩散模型

[CoDi]可处理几乎所有模式的任意扩散模型

[CoDi]可处理几乎所有模式的任意扩散模型

12/01/2024 扩散模型

Versatile Diffusion] 融合文本和图像的扩散模型

Versatile Diffusion] 融合文本和图像的扩散模型

21/12/2023 扩散模型

[CLAP] 语音和文本对比学习模型

[CLAP] 语音和文本对比学习模型

21/12/2023 对比学习

[UniD3] 用于综合处理图像和文本的多模式离散扩散模型

[UniD3] 用于综合处理图像和文本的多模式离散扩散模型

14/12/2023 扩散模型

Brain2Music] 根据大脑信息自动生成音乐。

Brain2Music] 根据大脑信息自动生成音乐。

06/12/2023 大型语言模型

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

20/11/2023 对比学习

[MuLan] 使用对比学习的多模态音乐-文本。

[MuLan] 使用对比学习的多模态音乐-文本。

24/10/2023 对比学习

[MusicLM]谷歌开发的文本到音乐生成模型。

[MusicLM]谷歌开发的文本到音乐生成模型。

18/10/2023 Transformer

[Make-An-Audio]用于语音生成的提示增强扩散模型。

[Make-An-Audio]用于语音生成的提示增强扩散模型。

16/10/2023 扩散模型

Moûsai] 从文本输入生成高质量音乐的扩散模型。

Moûsai] 从文本输入生成高质量音乐的扩散模型。

04/10/2023 扩散模型

使用MA强化学习的自主无人机控制的重新造林方法。

使用MA强化学习的自主无人机控制的重新造林方法。

23/05/2023 强化学习