语音识别文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们的技术。

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们 ...

05/08/2022 CVPR

更加逼真的3D面部动画现在可以从音频中生成了!

01/08/2022 3D

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

19/07/2022 文字转语音

你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗？基于大脑的计算机的定量能力。

你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗？基于大脑 ...

08/07/2022 调查

最后，一个能听懂讽刺性对话并能生成说明性文本的人工智能!

06/07/2022 自然语言处理

模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NET!

模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NE ...

01/07/2022 语音识别

一个新的手势生成的GAN，考虑到了人类的情感!

30/06/2022 生成对抗网络(GAN)

超轻量级CNN语音识别模型！谷歌开发的 "ContextNet "解读

13/09/2021 语音识别

赶上最新的AI论文

语音识别

Brain2Music] 根据大脑信息自动生成音乐。

Brain2Music] 根据大脑信息自动生成音乐。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[LP-MusicCaps] 使用 LLM 自动生成音乐字幕。

[MuLan] 使用对比学习的多模态音乐-文本。

[MuLan] 使用对比学习的多模态音乐-文本。

[MusicLM]谷歌开发的文本到音乐生成模型。

[MusicLM]谷歌开发的文本到音乐生成模型。

[Make-An-Audio]用于语音生成的提示增强扩散模型。

[Make-An-Audio]用于语音生成的提示增强扩散模型。

来自文本、语音和视觉的多模态情感识别：索尼提议M2FNet!

来自文本、语音和视觉的多模态情感识别：索尼提议M2FNet!

不同的分辨率特征应该如何连接？：索尼对D3Net的建议

不同的分辨率特征应该如何连接？：索尼对D3Net的建议

用较少的计算资源工作的文本转语音方法。

用较少的计算资源工作的文本转语音方法。

只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构

只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们的技术。

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们 ...

更加逼真的3D面部动画现在可以从音频中生成了!

更加逼真的3D面部动画现在可以从音频中生成了!

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

FreeMo，一个可以根据语音自动生成上半身手势的模型，就在这里!

你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗？基于大脑的计算机的定量能力。

你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗？基于大脑 ...

最后，一个能听懂讽刺性对话并能生成说明性文本的人工智能!

最后，一个能听懂讽刺性对话并能生成说明性文本的人工智能!

模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NET!

模型轻量化技术!轻量级和高性能的语音情感识别模型LightSER-NE ...

一个新的手势生成的GAN，考虑到了人类的情感!

一个新的手势生成的GAN，考虑到了人类的情感!

最新的激活函数综合评述!

最新的激活函数综合评述!

超轻量级CNN语音识别模型！谷歌开发的 "ContextNet "解读

超轻量级CNN语音识别模型！谷歌开发的 "ContextNet "解读