图片识别文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

LongVie：通过多模式控制实现一分钟超高质量视频生成的新时代

16/08/2025

Skywork UniPic：新一代多模态模型，集图像理解、生成和编辑于一体，效率极高

Skywork UniPic：新一代多模态模型，集图像理解、生成和编辑 ...

13/08/2025

HiWave：无需额外学习即可生成 4K 图像的小波扩散创新

31/07/2025

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGPT-4o-Image 挑战

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGP ...

24/07/2025

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模型

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模 ...

18/07/2025

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新方法

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新 ...

17/07/2025

UnifiedCrawl：低资源语言数据收集和高效 LLM 适应的新方法

图片识别

LongVie：通过多模式控制实现一分钟超高质量视频生成的新时代

LongVie：通过多模式控制实现一分钟超高质量视频生成的新时代

Skywork UniPic：新一代多模态模型，集图像理解、生成和编辑于一体，效率极高

Skywork UniPic：新一代多模态模型，集图像理解、生成和编辑 ...

HiWave：无需额外学习即可生成 4K 图像的小波扩散创新

HiWave：无需额外学习即可生成 4K 图像的小波扩散创新

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGPT-4o-Image 挑战

GPT-4o 级图像生成的民主化：Janus-4o 和 ShareGP ...

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模型

为了让人工智能不会忘记图像，CoMemo 率先推出了下一代视觉和语言模 ...

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新方法

PictSure：通过视觉嵌入功能挑战 "Few-Shot "分类的新 ...

UnifiedCrawl：低资源语言数据收集和高效 LLM 适应的新方法

UnifiedCrawl：低资源语言数据收集和高效 LLM 适应的新方 ...

Insight-V：连接视觉与思维的多模态推理新策略

Insight-V：连接视觉与思维的多模态推理新策略

稳定流：图像生成背后 "真正重要的层次 "可视化

稳定流：图像生成背后 "真正重要的层次 "可视化

通过 OWL-ViT 实现开放词汇对象检测

通过 OWL-ViT 实现开放词汇对象检测

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

MVANet：最强大的背景消除模型

MVANet：最强大的背景消除模型

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步

MaskDiT：用于图像生成的低学习成本扩散模型

MaskDiT：用于图像生成的低学习成本扩散模型

根据产品类别和品牌风格生成电子商务背景图片

根据产品类别和品牌风格生成电子商务背景图片

提出一种新的图像编辑方法 "模仿编辑"--MimicBrush

提出一种新的图像编辑方法 "模仿编辑"--MimicBrush

文本-2-图像 利用扩散模型生成物体背景

文本-2-图像 利用扩散模型生成物体背景

让法律硕士在白板上写下他们的推理过程，可以大大提高他们的视觉推理能力！

让法律硕士在白板上写下他们的推理过程，可以大大提高他们的视觉推理能力！

文本-2-图像利用扩散模型生成物体背景

文本-2-图像利用扩散模型生成物体背景