赶上最新的AI论文
什么是AI-SCHOLAR?
搜索历史
删除所有
登录
新注册
最新文章
从零开始学习人工智能
ゼロから学ぶ
图像识别
自然语言处理
语音识别
机器学习
深度学习
对抗性学习(GAN)
强化学习
采访
查看更多▼
TOP
语音识别
语音识别
[MuLan] 使用对比学习的多模态音乐-文本。
[MuLan] 使用对比学习的多模态音乐-文本。
24/10/2023
对比学习
[MusicLM]谷歌开发的文本到音乐生成模型。
[MusicLM]谷歌开发的文本到音乐生成模型。
18/10/2023
Transformer
[Make-An-Audio]用于语音生成的提示增强扩散模型。
[Make-An-Audio]用于语音生成的提示增强扩散模型。
16/10/2023
扩散模型
来自文本、语音和视觉的多模态情感识别:索尼提议M2FNet!
来自文本、语音和视觉的多模态情感识别:索尼提议M2FNet!
31/01/2023
情感识别
不同的分辨率特征应该如何连接?:索尼对D3Net的建议
不同的分辨率特征应该如何连接?:索尼对D3Net的建议
30/01/2023
CVPR
用较少的计算资源工作的文本转语音方法。
用较少的计算资源工作的文本转语音方法。
05/10/2022
纳斯达克
只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构
只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构
19/08/2022
3D
现在有一种技术,可以编辑视频人物的面部动作,以配合任何情绪!这就是我们的技术。
现在有一种技术,可以编辑视频人物的面部动作,以配合任何情绪!这就是我们 ...
05/08/2022
CVPR
更加逼真的3D面部动画现在可以从音频中生成了!
更加逼真的3D面部动画现在可以从音频中生成了!
01/08/2022
3D
FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!
FreeMo,一个可以根据语音自动生成上半身手势的模型,就在这里!
19/07/2022
文字转语音
你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗?基于大脑的计算机的定量能力。
你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗?基于大脑 ...
08/07/2022
调查
最后,一个能听懂讽刺性对话并能生成说明性文本的人工智能!
最后,一个能听懂讽刺性对话并能生成说明性文本的人工智能!
06/07/2022
自然语言处理
模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NET!
模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NE ...
01/07/2022
语音识别
一个新的手势生成的GAN,考虑到了人类的情感!
一个新的手势生成的GAN,考虑到了人类的情感!
30/06/2022
生成对抗网络(GAN)
最新的激活函数综合评述!
最新的激活函数综合评述!
28/06/2022
调查
超轻量级CNN语音识别模型!谷歌开发的 "ContextNet "解读
超轻量级CNN语音识别模型!谷歌开发的 "ContextNet "解读
13/09/2021
语音识别
这就是SoTA关于语音识别的论文! 谷歌的这项研究真是突破了半监督学习的极限!
这就是SoTA关于语音识别的论文! 谷歌的这项研究真是突破了半监督学习 ...
25/06/2021
语音识别
端到端语音翻译 "NeurST"。
端到端语音翻译 "NeurST"。
30/01/2021
语音识别
1
2
3
4