最新AI論文をキャッチアップ

軽量高性能を実現する汎用蒸留フレームワーク『GenRecal』

軽量高性能を実現する汎用蒸留フレームワーク『GenRecal』

その他

3つの要点
✔️ VLMから小規模なモデルへの知識蒸留の課題を解決するために、新しいフレームワーク「GenRecal」を提案
✔️  GenRecalは、再校正というプロセスを通じて、異なるトークンタイプを持つモデル間の知識蒸留を可能にし、通常の蒸留方法が持つ制約を克服
✔️ より効率的な小型モデルの生成が可能になり、様々なビジョン・ランゲージモデルの性能を向上させました

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models
written by Byung-Kwan LeeRyo HachiumaYong Man RoYu-Chiang Frank WangYueh-Hua Wu
(Submitted on 18 Jun 2025)
Comments:Project page: this https URL
Subjects: Computation and Language (cs.CL)

code:  

概要

この論文は、大規模な視覚言語モデル(VLM)をより小型で効率的なモデルに変換する新しい手法を提案しています。

従来の方法では、異なるトークンサイズを持つモデル間での知識蒸留が困難でした。この問題を解決するために、著者は「Recalibration」というアプローチを提案し、異なるトークンサイズのモデル間での知識移転を可能にしました。具体的には、Recalibrationにより、大規模モデルのトークンを小規模モデルに適応させることで、学習の効率を向上させます。

この手法は、多数のベンチマークで従来の方法を上回る性能を示しており、効率的なマルチモーダルAIシステムの開発に役立つとされています。また、異なるモデルの組み合わせによる柔軟な蒸留プロセスを実現することで、特定の用途に応じたカスタマイズが可能であることを示しています。これにより、リソースの限られた環境でも高性能なAIシステムを構築するための新たな道を開くことが期待されています。

提案手法

本論文では、異なるトークンタイプを持つ大規模視覚言語モデル(VLM)間で効果的に知識蒸留を行うため、「Generation after Recalibration(GenRecal)」という新たなフレームワークを提案。この手法では、まず小規模VLMと大規模VLMに同じ入力を与え、それぞれの中間表現を取得します。

次に、Recalibratorと呼ばれるモジュールが小規模モデルの特徴を大規模モデルの表現空間に投影し、互換性を確保。Recalibratorは、二つのプロジェクション層とデコーダブロックで構成され、トークンの次元整合や位置情報の再付与を行います。学習は三段階で進み、第一段階でRecalibrator単体を訓練して表現を整合し、第二段階で蒸留を開始、最終段階で全体を微調整しました。

この構造により、従来手法では不可能だった異なるアーキテクチャ間の知識移転を可能にし、高性能モデルから軽量モデルへ高精度な推論能力を継承します。

実験

実験では、GenRecalが従来の蒸留手法よりも優れた性能を発揮することを確認するため、多様な組み合わせの教師モデルと生徒モデルを用いて検証が行われました。

特に、InternVL2.5-78BやQwen2-VL-72Bなど強力な教師モデルと、小規模なInternVL2.5-8BやQwen2-VL-2Bを組み合わせています。評価はMM-VetやMMMUなどのベンチマークで実施され、従来の知識蒸留や単なるファインチューニングを大幅に上回る結果に。

また、Recalibratorの効果を検証するため、正則化項の有無による性能比較や、特徴空間のt-SNE可視化を行い、表現の整合が知識移転に不可欠であることを明らかにしました。さらに、教師モデルの性能が高いほど生徒モデルの精度も向上する傾向が確認され、この手法の有効性が多角的に裏付けられています。

まとめ

本論文では、異なるアーキテクチャやトークンタイプを持つ視覚言語モデル(VLM)間で知識蒸留を可能にする新たなフレームワーク「GenRecal」を提案しました。中心となるRecalibratorは、小規模モデルの特徴を大規模モデルの表現空間に適応させ、効果的な知識移転を実現します。三段階の訓練により、特徴の整合から蒸留、微調整まで段階的に性能を高める仕組みを採用しています。

実験では、従来の蒸留手法や単純なファインチューニングを上回り、幅広いベンチマークで高い精度を達成しました。さらに、教師モデルの性能が高いほど生徒モデルも向上する傾向が確認され、Recalibratorが蒸留成功の鍵であることを示しました。

この研究は軽量かつ高性能なVLM開発の重要な一歩といえます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする