图片说明。
Vript-Hard 是测试长视频理解能力的新基准
Vript-Hard 是测试长视频理解能力的新基准
大型语言模型
LAVE 是一款使用 LLM 的代理辅助视频编辑工具
LAVE 是一款使用 LLM 的代理辅助视频编辑工具
大型语言模型
YesBut:帮助 VLM 理解讽刺和漫画的数据集的出现!
YesBut:帮助 VLM 理解讽刺和漫画的数据集的出现!
数据集
从人脸识别到年龄估计,使用 ChatGPT-4 的生物识别技术的潜力
从人脸识别到年龄估计,使用 ChatGPT-4 的生物识别技术的潜力
大型语言模型
[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力
[Set-of-Mark Visual Prompting] 提示技术 ...
提示方法
[CoDi]可处理几乎所有模式的任意扩散模型
[CoDi]可处理几乎所有模式的任意扩散模型
扩散模型
从文本中生成3D对象 - DreamFusion
从文本中生成3D对象 - DreamFusion
3D
从关注到基于GAN的方法的图像标题生成技术的总结。
从关注到基于GAN的方法的图像标题生成技术的总结。
图片说明。