文字转语音
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音!
人人都会说英语的时代已经到来!适用于多种语言的零镜头语音合成技术让任何 ...
肢体瘫痪者的语音识别功能
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
神经网络
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI ...
大型语言模型
[HiFi-GAN]基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频
[HiFi-GAN]基于 GAN 的声码器,能在单 GPU 上生成 2 ...
文字转语音
[VoiceCraft] 业界最高水平的自然语音合成语言模型
[VoiceCraft] 业界最高水平的自然语音合成语言模型
文字转语音
[MusicLDM] 低剽窃风险的文本到音乐模型
[MusicLDM] 低剽窃风险的文本到音乐模型
扩散模型
[CLAP] 语音和文本对比学习模型
[CLAP] 语音和文本对比学习模型
对比学习
[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。
[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。
对比学习
现在有一种技术,可以编辑视频人物的面部动作,以配合任何情绪!这就是我们的技术。
现在有一种技术,可以编辑视频人物的面部动作,以配合任何情绪!这就是我们 ...
CVPR
FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!
FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!
文字转语音