计算机视觉文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGPT-4o-Image 挑战

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGP ...

24/07/2025

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模型

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模 ...

18/07/2025

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新方法

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新 ...

17/07/2025

超解析内存网络：改变 Transformer 内存效率的新方法

23/06/2025

Insight-V：连接视觉与思维的多模态推理新策略

23/06/2025

稳定流：图像生成背后 "真正重要的层次 "可视化

22/06/2025

[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试

[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测 ...

28/02/2025 计算机视觉

Vript-Hard 是测试长视频理解能力的新基准

21/01/2025 大型语言模型

利用仓本模型在非欧几里得空间进行机器学习

04/12/2024 计算机视觉

[InsectMamba]利用状态空间模型对害虫进行分类，以支持智能农业

[InsectMamba]利用状态空间模型对害虫进行分类，以支持智能农 ...

04/09/2024 计算机视觉

[CoMat] 解决文本与图像之间的差异

28/08/2024 计算机视觉

[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法

21/08/2024 计算机视觉

通过 CLIP 评估零镜头图像理解模型的鲁棒性

24/06/2024 对比学习

[VideoAgent] 使用大规模语言模型作为代理来理解长视频

21/06/2024 计算机视觉

计算机视觉

LongVie：通过多模式控制实现一分钟超高质量视频生成的新时代

LongVie：通过多模式控制实现一分钟超高质量视频生成的新时代

HiWave：无需额外学习即可生成 4K 图像的小波扩散创新

HiWave：无需额外学习即可生成 4K 图像的小波扩散创新

RoboTwin 2.0：双臂操作机器人的可扩展合成数据生成和基准设计

RoboTwin 2.0：双臂操作机器人的可扩展合成数据生成和基准设计

什么是 DualTHOR？用于提高双臂机器人实际适应能力的新一代模拟器

什么是 DualTHOR？用于提高双臂机器人实际适应能力的新一代模拟器

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGPT-4o-Image 挑战

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGP ...

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模型

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模 ...

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新方法

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新 ...

超解析内存网络：改变 Transformer 内存效率的新方法

超解析内存网络：改变 Transformer 内存效率的新方法

Insight-V：连接视觉与思维的多模态推理新策略

Insight-V：连接视觉与思维的多模态推理新策略

稳定流：图像生成背后 "真正重要的层次 "可视化

稳定流：图像生成背后 "真正重要的层次 "可视化

[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测试

[SOK-Bench] 利用视频中的真实世界知识进行情景视频推理基准测 ...

Vript-Hard 是测试长视频理解能力的新基准

Vript-Hard 是测试长视频理解能力的新基准

利用仓本模型在非欧几里得空间进行机器学习

利用仓本模型在非欧几里得空间进行机器学习

[InsectMamba]利用状态空间模型对害虫进行分类，以支持智能农业

[InsectMamba]利用状态空间模型对害虫进行分类，以支持智能农 ...

[CoMat] 解决文本与图像之间的差异

[CoMat] 解决文本与图像之间的差异

[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法

[OW-VISCap]注意看不见的物体--理解开放世界视频的新方法

通过 CLIP 评估零镜头图像理解模型的鲁棒性

通过 CLIP 评估零镜头图像理解模型的鲁棒性

[VideoAgent] 使用大规模语言模型作为代理来理解长视频

[VideoAgent] 使用大规模语言模型作为代理来理解长视频