赶上最新的AI论文

什么是AI-SCHOLAR？

小波扩散：最快的扩散模型

生成图像: 16/04/2024

CNN的内核大小是否应该增加？

CNN的内核大小是否应该增加？

12/09/2022 论文

ImageNet预学习模型的修剪在下游任务中是如何进行的？

ImageNet预学习模型的修剪在下游任务中是如何进行的？

09/09/2022 剪枝

成功的自我监督控制学习的数据集要求是什么？

成功的自我监督控制学习的数据集要求是什么？

05/09/2022 数据集

批量归一化中的Affine参数在Few-Shot学习中可能是有害的!

批量归一化中的Affine参数在Few-Shot学习中可能是有害的!

01/09/2022 少数派

在物联网设备上运行的神经网路的架构探索方法。

在物联网设备上运行的神经网路的架构探索方法。

31/08/2022 纳斯达克

从ImageNet训练中获得的稳健性能否用于过渡学习的下游任务？

从ImageNet训练中获得的稳健性能否用于过渡学习的下游任务？

29/08/2022 健全的

白日梦：梦想家终于是一个真正的机器人了！他的名字叫 "白日梦"

白日梦：梦想家终于是一个真正的机器人了！他的名字叫 "白日梦"

25/08/2022 机器人

EMOCA现在能够从输入的图像中生成更有表现力的3D脸部模型!

EMOCA现在能够从输入的图像中生成更有表现力的3D脸部模型!

手势能够识别在训练数据中未观察到的情绪!

手势能够识别在训练数据中未观察到的情绪!

23/08/2022 零距离拍摄

用不精确的伪标签进行半监督性分割

用不精确的伪标签进行半监督性分割

22/08/2022 分段

只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构

只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构

结合知识图谱和强化学习的新型可解释艺术家推荐系统。

结合知识图谱和强化学习的新型可解释艺术家推荐系统。

18/08/2022 建议

使用批量正则化的快速NAS方法

使用批量正则化的快速NAS方法

17/08/2022 纳斯达克

一种使用对比学习和卷积图网络来比较神经网架构的方法。

一种使用对比学习和卷积图网络来比较神经网架构的方法。

10/08/2022 纳斯达克

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们的技术。

现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们 ...

05/08/2022 CVPR

DALLE-2有了自己的语言!

DALLE-2有了自己的语言!

03/08/2022 深度学习

更加逼真的3D面部动画现在可以从音频中生成了!

更加逼真的3D面部动画现在可以从音频中生成了!

用于遥感的自我监督的材料纹理表示学习。

用于遥感的自我监督的材料纹理表示学习。

27/07/2022 自监督学习

小波扩散：最快的扩散模型

小波扩散：最快的扩散模型

16/04/2024 生成图像

利用 ChatGPT 提高面部识别的准确性和透明度，这是软性生物识别技术的新发展

利用 ChatGPT 提高面部识别的准确性和透明度，这是软性生物识别技 ...

08/04/2024 大型语言模型

[RL-GPT]在 Mincraft 中以比平常快几倍的速度获取钻石的框架现已推出

[RL-GPT]在 Mincraft 中以比平常快几倍的速度获取钻石的 ...

18/04/2024 机器学习

现在有了一个框架，可以让法律硕士使用 MBTI 评估人的个性！

现在有了一个框架，可以让法律硕士使用 MBTI 评估人的个性！

22/04/2024 聊天室GPT

MMR1：多模态推理模型，利用基于奖励方差的采样稳定强化学习

MMR1：多模态推理模型，利用基于奖励方差的采样稳定强化学习

VCRL：利用奖励差异控制学习难度的 LLM 强化学习新方法

VCRL：利用奖励差异控制学习难度的 LLM 强化学习新方法

[Qwen2.5-Coder]专门从事代码生成、完成和数学推理任务的 LLM

[Qwen2.5-Coder]专门从事代码生成、完成和数学推理任务的 ...

11/10/2024 大型语言模型

扩散政策：机器人扩散模型！当机器人也能做披萨

扩散政策：机器人扩散模型！当机器人也能做披萨

06/11/2023 扩散模型

简单!准确度高!异常检测模型PatchCore的吸引力

简单!准确度高!异常检测模型PatchCore的吸引力

12/07/2023 目标检测

首次对 "用于评估 LLM 安全性的数据集 "进行系统审查

首次对 "用于评估 LLM 安全性的数据集 "进行系统审查

22/11/2024 大型语言模型

CogVideo，一个用于从文本中生成视频的开源模型，现在可以使用了

CogVideo，一个用于从文本中生成视频的开源模型，现在可以使用了

11/10/2022 视频生成

来自文本、语音和视觉的多模态情感识别：索尼提议M2FNet!

来自文本、语音和视觉的多模态情感识别：索尼提议M2FNet!

31/01/2023 情感识别