
GenRecal,一个用于轻量级高性能的通用蒸馏框架
三个要点
✔️ 本文提出了一个新的框架 GenRecal,以解决从大型视觉语言模型到小型模型的知识提炼难题
✔️ GenRecal 可通过一个称为重新校准的过程,在不同标记类型的模型之间进行知识提炼。可实现并克服通常蒸馏方法的局限性
✔️ 可更有效地生成较小的模型,从而提高各种视觉和语言模型的性能。
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models
written by Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
(Submitted on 18 Jun 2025)
Comments:Project page: this https URL
Subjects: Computation and Language (cs.CL)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文提出了一种将大型视觉语言模型(VLM)转化为更小、更高效模型的新方法。
传统方法难以在不同标记大小的模型之间进行知识提炼。为了解决这个问题,作者提出了一种名为 "重新校准 "的方法,它可以在不同标记大小的模型之间进行知识转移。具体来说,"重新校准 "通过将大型模型中的标记调整到小型模型中来提高学习效率。
该方法在许多基准测试中都优于传统方法,被认为有助于开发高效的多模态人工智能系统。它还可以通过组合不同的模型实现灵活的蒸馏过程,表明它可以针对特定应用进行定制。即使在资源有限的环境中,这也有望为构建高性能人工智能系统开辟新的途径。
拟议的方法
本文提出了一个名为 "重新校准后生成"(GenRecal)的新框架,用于在具有不同标记类型的大规模视觉语言模型(VLM)之间进行有效的知识提炼。在这种方法中,首先给小规模和大规模视觉语言模型相同的输入,以获得各自的中间表征。
接下来,一个名为 Recalibrator 的模块会将小规模模型的特征投射到大规模模型的表示空间中,以确保兼容性;Recalibrator 由两个投射层和一个解码器模块组成,解码器模块会对标记进行维度匹配,并重新分配位置信息。学习分三个阶段进行,第一阶段仅对 Recalibrator 进行训练,以调整表征,第二阶段开始蒸馏,最后阶段对整体进行微调。
这种结构允许在不同架构之间进行知识转移,而传统方法则无法做到这一点,同时还能将高精度推理能力从高性能模型转移到轻量级模型。
实验
我们使用教师模型和学生模型的不同组合进行了实验,以验证 GenRecal 优于传统的蒸馏方法。
特别是将强大的教师模型(如 InternVL2.5-78B 和 Qwen2-VL-72B)与较小的 InternVL2.5-8B 和 Qwen2-VL-2B 结合起来。对 MM-Vet 和 MMMU 等基准进行了评估,结果表明,它们明显优于传统的知识提炼和单纯的微调。
为了验证 Recalibrator 的有效性,我们进行了有正则化条件和无正则化条件的性能比较,并对特征空间进行了 t-SNE 可视化处理,结果表明表征对齐对于知识转移至关重要。此外,教师模型的较高性能往往会提高学生模型的准确性,这为该方法的有效性提供了多方面的支持。
结论
在本文中,我们提出了 GenRecal,这是一个新的框架,可以在不同架构和标记类型的视觉语言模型(VLM)之间进行知识提炼。中央重新校准器(Recalibrator)可将小规模模型的特征调整到大规模模型的表示空间,从而实现有效的知识转移。它采用三阶段训练机制,从特征对齐到提炼和微调,逐步提高性能。
实验表明,它的性能优于传统的蒸馏方法和简单的微调方法,在各种基准测试中都达到了很高的精度。此外,还观察到一种趋势,即教师模型的性能越好,学生模型的性能就越好,这表明重新校准器是成功蒸馏的关键。
这项研究是开发轻量级高性能 VLM 的重要一步。
与本文相关的类别