文字转语音
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音!
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何 ...
肢体瘫痪者的语音识别功能
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
神经网络
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI ...
大型语言模型
生成听力障碍语音!解决训练数据不足的神奇数据扩展技术是什么?
生成听力障碍语音!解决训练数据不足的神奇数据扩展技术是什么?
声音
[HiFi-GAN]基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频
[HiFi-GAN]基于 GAN 的声码器,能在单 GPU 上生成 2 ...
文字转语音
[VoiceCraft] 业界最高水平的自然语音合成语言模型
[VoiceCraft] 业界最高水平的自然语音合成语言模型
文字转语音
[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造者的关键在于
[人工智能的寒武纪大爆发] 在人工智能时代找到并利用有用的人工智能创造 ...
视频生成
[MusicLDM] 低剽窃风险的文本到音乐模型
[MusicLDM] 低剽窃风险的文本到音乐模型
扩散模型
AudioLDM]使用潜在扩散的文本到音频生成模型
AudioLDM]使用潜在扩散的文本到音频生成模型
扩散模型
[CoDi]可处理几乎所有模式的任意扩散模型
[CoDi]可处理几乎所有模式的任意扩散模型
扩散模型
[CLAP] 语音和文本对比学习模型
[CLAP] 语音和文本对比学习模型
对比学习
Brain2Music] 根据大脑信息自动生成音乐。
Brain2Music] 根据大脑信息自动生成音乐。
大型语言模型
[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。
[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。
对比学习
[MuLan] 使用对比学习的多模态音乐-文本。
[MuLan] 使用对比学习的多模态音乐-文本。
对比学习
[MusicLM]谷歌开发的文本到音乐生成模型。
[MusicLM]谷歌开发的文本到音乐生成模型。
Transformer