Catch up on the latest AI articles

What is AI-SCHOLAR?

LongVie: A New Era Of 1-minute Ultra-High Quality Video Generation Realized By Multimodal Control

LongVie: A New Era Of 1-minute Ultra-High Quality Video Generation Realized By Multimodal Control

Skywork UniPic: Next-generation Multimodal Model That Integrates Image Understanding, Generation, And Editing With High Efficiency

Skywork UniPic: Next-generation Multimodal Model That Integrates Image Understanding, Generation, An ...

HiWave: Innovation In Wavelet Diffusion Generation For 4K Images Without Additional Learning

HiWave: Innovation In Wavelet Diffusion Generation For 4K Images Without Additional Learning

Democratizing GPT-4o Level Image Generation: The Janus-4o And ShareGPT-4o-Image Challenge

Democratizing GPT-4o Level Image Generation: The Janus-4o And ShareGPT-4o-Image Challenge

Toward AI That Doesn't Forget Images, CoMemo Pioneers Next-generation Vision And Language Models

Toward AI That Doesn't Forget Images, CoMemo Pioneers Next-generation Vision And Language Models

PictSure: A New Method To Challenge Few-Shot Classification With The Power Of Visual Embedding

PictSure: A New Method To Challenge Few-Shot Classification With The Power Of Visual Embedding

UnifiedCrawl: A New Approach To Low-Resource Language Data Collection And Efficient LLM Adaptation

UnifiedCrawl: A New Approach To Low-Resource Language Data Collection And Efficient LLM Adaptation

30/06/2025 Other

Insight-V: A New Strategy For Multimodal Reasoning Connecting Vision And Thought

Insight-V: A New Strategy For Multimodal Reasoning Connecting Vision And Thought

Stable Flow: Visualization Of The "really Important Layers" Behind Image Generation

Stable Flow: Visualization Of The "really Important Layers" Behind Image Generation

Open Vocabulary Object Detection Enabled By OWL-ViT

Open Vocabulary Object Detection Enabled By OWL-ViT

28/02/2025 Neural Network

Libra] A New Multimodal Design Of Large Language Models Using Separate Vision Systems

Libra] A New Multimodal Design Of Large Language Models Using Separate Vision Systems

27/02/2025 Large Language Models

MVANet: The Most Powerful Model For Background Removal

MVANet: The Most Powerful Model For Background Removal

31/01/2025 Neural Network

Zero-shot Learning] AI Voice Cloning And Lip-syncing Verification And Explanation

Zero-shot Learning] AI Voice Cloning And Lip-syncing Verification And Explanation

29/01/2025 Neural Network

MaskDiT: Low Learning Cost Diffusion Model For Image Generation

MaskDiT: Low Learning Cost Diffusion Model For Image Generation

27/01/2025 Image Generation

E-commerce Background Image Generation Based On Product Category And Brand Style

E-commerce Background Image Generation Based On Product Category And Brand Style

17/01/2025 Image Generation

MimicBrush, A New Image Editing Method "Imitative Editing" Is Proposed

MimicBrush, A New Image Editing Method "Imitative Editing" Is Proposed

16/01/2025 Image Editing

Object Background Generation Using Text-2-Image Diffusion Model

Object Background Generation Using Text-2-Image Diffusion Model

10/01/2025 Image Generation

Giving LLMs A Whiteboard To Write Down Their Reasoning Process Greatly Improves Their Visual Reasoning Ability!

Giving LLMs A Whiteboard To Write Down Their Reasoning Process Greatly Improves Their Visual Reasoni ...

26/12/2024 Prompting Method