计算机视觉
RoboTwin 2.0:双臂操作机器人的可扩展合成数据生成和基准设计
RoboTwin 2.0:双臂操作机器人的可扩展合成数据生成和基准设计
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战
GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGP ...
为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模型
为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模 ...
PictSure:通过视觉嵌入功能挑战 "Few-Shot "分类的新方法
PictSure:通过视觉嵌入功能挑战 "Few-Shot "分类的新 ...
超解析内存网络:改变 Transformer 内存效率的新方法
超解析内存网络:改变 Transformer 内存效率的新方法
Insight-V:连接视觉与思维的多模态推理新策略
Insight-V:连接视觉与思维的多模态推理新策略
稳定流:图像生成背后 "真正重要的层次 "可视化
稳定流:图像生成背后 "真正重要的层次 "可视化
[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试
[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测 ...
计算机视觉
Vript-Hard 是测试长视频理解能力的新基准
Vript-Hard 是测试长视频理解能力的新基准
大型语言模型
利用仓本模型在非欧几里得空间进行机器学习
利用仓本模型在非欧几里得空间进行机器学习
计算机视觉
[InsectMamba]利用状态空间模型对害虫进行分类,以支持智能农业
[InsectMamba]利用状态空间模型对害虫进行分类,以支持智能农 ...
计算机视觉
[CoMat] 解决文本与图像之间的差异
[CoMat] 解决文本与图像之间的差异
计算机视觉
[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法
[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法
计算机视觉
通过 CLIP 评估零镜头图像理解模型的鲁棒性
通过 CLIP 评估零镜头图像理解模型的鲁棒性
对比学习
[VideoAgent] 使用大规模语言模型作为代理来理解长视频
[VideoAgent] 使用大规模语言模型作为代理来理解长视频
计算机视觉
[任何分割] 零镜头分割模型
[任何分割] 零镜头分割模型
分段