Skywork UniPic：高効率で画像理解・生成・編集を統合する次世代マルチモーダルモデル

LLM-Paper 2025年08月13日

3つの要点
✔️ 画像理解・生成・編集を統合する1.5Bパラメータの高効率マルチモーダルモデルを提案
✔️ MARとSigLIP2によるデカップルド符号化戦略で画質と意味理解を両立
✔️ GenEval 0.86やGEdit-Bench 5.83など高性能を達成し、一般GPUでも高解像度生成可能

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
written by Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
(Submitted on 5 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

概要

本研究では、画像理解・テキストからの画像生成・画像編集を単一のアーキテクチャで統合的に実現する1.5Bパラメータのオートレグレッシブモデル「Skywork UniPic」を提案しています。

従来、多くのマルチモーダルAIは理解・生成・編集を別個のモデルやアダプタで処理しており、性能の分断や推論コスト増大が課題でした。
UniPicは、生成に特化したMasked Autoregressive（MAR）エンコーダと、理解に特化したSigLIP2エンコーダを共通LLMバックボーンに接続する「デカップルド符号化戦略」を採用し、タスクごとの最適化と相互知識伝達を両立します。さらに、100M規模の高品質データセット、報酬モデルによるデータ品質管理、256→1024ピクセルへの段階的解像度拡張学習を組み合わせ、RTX 4090などの一般的GPU環境で高精細画像生成を実現。

評価ではGenEval 0.86、DPG-Bench 85.5、GEdit-Bench 5.83などの高性能を示し、同規模や大規模の既存統合モデルと比較しても競争力を持ちます。

提案手法

Skywork UniPicの最大の特徴は、単一モデルで画像理解・生成・編集を高効率に統合するための「デカップルド符号化戦略」です。

生成タスクにはMARエンコーダ・デコーダを用い、ピクセルレベルの忠実度を維持しながら高解像度合成に対応します。
一方、理解タスクにはSigLIP2エンコーダを採用し、意味的に豊かな特徴抽出を実現。
両者は個別のMLP投影層を介して1.5BパラメータのQwen2.5バックボーンに接続され、統一的なオートレグレッシブ処理でタスク間の知識共有を可能にします。

学習は4段階のカリキュラム構造で進行し、MAR事前学習、MAR-LLMアライメント、タスク統合最適化、報酬モデルを活用したSFTへと移行。
データ品質保証では、GRPOで訓練したSkywork-ImgRewardと、編集精度に特化したSkywork-EditRewardを用い、低品質サンプルを排除しつつ多様な編集・生成シナリオに対応可能なデータセットを構築します。

実験

実験は画像生成、画像編集、画像理解の3領域で実施されました。

生成タスクではGenEval（構成的理解）とDPG-Bench（長文指示追従性）を使用し、UniPicはGenEvalで0.86、DPG-Benchで85.5を達成。
特に単一物体生成や複数物体構成、位置理解で高精度を示しました。

編集タスクではGEdit-Benchで5.83、ImgEdit-Benchで3.49を記録し、行動編集やスタイル変更など特定カテゴリで優位性を発揮。
比較対象にはOmniGen2やBAGELなどの統合モデル、ICEditやStep1X-Editなどの専門編集モデルを含み、UniPicはパラメータ規模が小さいにもかかわらず競合性能を示しました。

さらに、RTX 4090上で1024×1024解像度画像を15GB未満のGPUメモリで生成可能であり、性能・効率・汎用性のバランスの取れた統合マルチモーダル基盤モデルとしての有用性が確認されました。