
GPT-4oレベルの画像生成を民主化する:Janus-4oとShareGPT-4o-Imageの挑戦
3つの要点
✔️ GPT-4oの画像生成能力を模倣した91K件の合成データセット「ShareGPT-4o-Image」を構築
✔️ 本データで微調整した新モデル「Janus-4o」は画像生成と画像編集の両方に対応
✔️ 少量データかつ短時間の学習で、既存の高性能モデルを上回る画像生成性能を達成
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
written by Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
(Submitted on 22 Jun 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
概要
本論文では、GPT-4oの高度な画像生成能力をオープンソースのマルチモーダルモデルに転移することを目的として、新たに「ShareGPT-4o-Image」という大規模な合成データセットを構築。加えて、それを用いた「Janus-4o」というマルチモーダル大規模言語モデルを提案しています。
ShareGPT-4o-Imageは、45,000件のテキストからの画像生成データと、46,000件の画像とテキストを用いた画像変換データから構成されており、いずれもGPT-4o-Imageを用いて生成された高品質なサンプルです。このデータをもとに、既存のJanus-Proモデルを微調整することで、Janus-4oはテキストからの画像生成だけでなく、画像編集(テキスト+画像入力からの画像生成)も可能に。注目すべき点は、わずか91Kのサンプルと6時間の学習で、従来のモデルを凌駕する性能を達成している点です。
本研究は、高性能な画像生成技術の民主化に寄与し、オープンなマルチモーダル研究を加速するための重要な一歩となっています。
提案手法
ShareGPT-4o-Imageは、GPT-4o-Imageの能力を模倣・蒸留するために設計された合成データセットです。このデータは、2つの生成方式によって作成されました。
ひとつは「プロンプト主導型」で、属性(オブジェクト、背景、スタイルなど)を定義し、それに基づいてLLMが自然言語のプロンプトを生成し、GPT-4o-Imageで画像を出力します。もう一方は「画像主導型」で、既存の画像からLLMが詳細な説明文を生成し、それと画像をペアにしてデータ化するものです。また、画像編集用データは、14種類のタスクを軸に、元画像・編集指示・編集後画像の3点セットで構成されており、豊富なスタイル変換や要素追加などを網羅しています。
そして、このデータセットを用いて、既存のJanus-Proモデルを微調整し、Janus-4oを開発。Janus-4oは、テキストのみの入力にも、テキスト+画像の複合入力にも対応する構造となっており、それぞれに対して適切な表現学習を行えるよう設計されています。
実験
Janus-4oの性能評価は、テキストからの画像生成と、画像編集の2タスクで行われました。
テキストからの画像生成においては、GenEvalおよびDPG-Benchというベンチマークを用い、構成的整合性や視覚的忠実性を測定。その結果、Janus-Proと比較して、GenEvalで+4ポイント、DPG-Benchで+1.6ポイントの性能向上を示しました。
一方、画像編集の能力は、ImgEdit-Benchというベンチマークで評価され、動きの変化やスタイル転写などの細かな編集項目で高得点を記録。特に注目すべきは、91Kという少ない学習データ量で、4M以上のデータを使った他の先行モデルに匹敵、あるいはそれを超える性能を実現した点です。
加えて、人手による評価実験では、生成された画像の視覚的魅力や命令の忠実度において、Janus-4oがJanus-ProやUltraEditよりも好まれる傾向が明確に見られました。これにより、ShareGPT-4o-Imageのデータ品質の高さと、その有効性が実証されたとのこと。
この記事に関するカテゴリー