计算机视觉
Insight-V:连接视觉与思维的多模态推理新策略
Insight-V:连接视觉与思维的多模态推理新策略
稳定流:图像生成背后 "真正重要的层次 "可视化
稳定流:图像生成背后 "真正重要的层次 "可视化
[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试
[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测 ...
计算机视觉
Vript-Hard 是测试长视频理解能力的新基准
Vript-Hard 是测试长视频理解能力的新基准
大型语言模型
利用仓本模型在非欧几里得空间进行机器学习
利用仓本模型在非欧几里得空间进行机器学习
计算机视觉
[InsectMamba]利用状态空间模型对害虫进行分类,以支持智能农业
[InsectMamba]利用状态空间模型对害虫进行分类,以支持智能农 ...
计算机视觉
[CoMat] 解决文本与图像之间的差异
[CoMat] 解决文本与图像之间的差异
计算机视觉
[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法
[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法
计算机视觉
通过 CLIP 评估零镜头图像理解模型的鲁棒性
通过 CLIP 评估零镜头图像理解模型的鲁棒性
对比学习
[VideoAgent] 使用大规模语言模型作为代理来理解长视频
[VideoAgent] 使用大规模语言模型作为代理来理解长视频
计算机视觉
[任何分割] 零镜头分割模型
[任何分割] 零镜头分割模型
分段
苹果公司开发了一种大规模自回归图像模型,它可以像 LLM 一样进行扩展。
苹果公司开发了一种大规模自回归图像模型,它可以像 LLM 一样进行扩展 ...
计算机视觉
Swin 变形金刚] 基于变形金刚的图像识别模型,你现在要抓紧了
Swin 变形金刚] 基于变形金刚的图像识别模型,你现在要抓紧了
图片识别
[DiffYOLO] 改进低质量数据物体检测的创新框架
[DiffYOLO] 改进低质量数据物体检测的创新框架
计算机视觉
InstructPix2Pix:用户导向图像编辑模式的出现
InstructPix2Pix:用户导向图像编辑模式的出现
计算机视觉
[mPLUG-Owl]开发能理解图像和文本的 LLM
[mPLUG-Owl]开发能理解图像和文本的 LLM
计算与语言
T2I-适配器:文本到图像转换技术的前沿
T2I-适配器:文本到图像转换技术的前沿
计算机视觉