赶上最新的AI论文

什么是AI-SCHOLAR？

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模型

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模 ...

Vript-Hard 是测试长视频理解能力的新基准

Vript-Hard 是测试长视频理解能力的新基准

21/01/2025 大型语言模型

LAVE 是一款使用 LLM 的代理辅助视频编辑工具

LAVE 是一款使用 LLM 的代理辅助视频编辑工具

13/12/2024 大型语言模型

YesBut：帮助 VLM 理解讽刺和漫画的数据集的出现！

YesBut：帮助 VLM 理解讽刺和漫画的数据集的出现！

22/11/2024 数据集

从人脸识别到年龄估计，使用 ChatGPT-4 的生物识别技术的潜力

从人脸识别到年龄估计，使用 ChatGPT-4 的生物识别技术的潜力

23/05/2024 大型语言模型

[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力

[Set-of-Mark Visual Prompting] 提示技术 ...

18/01/2024 提示方法

[CoDi]可处理几乎所有模式的任意扩散模型

[CoDi]可处理几乎所有模式的任意扩散模型

12/01/2024 扩散模型

从文本中生成3D对象 - DreamFusion

从文本中生成3D对象 - DreamFusion

从关注到基于GAN的方法的图像标题生成技术的总结。

从关注到基于GAN的方法的图像标题生成技术的总结。

29/06/2022 图片说明。