速度与准确性的结合：量化感知 LLM 预训练 "QAP"。

02/08/2025

三个要点
✔️ 提出了量化感知预学习方法 (QAP)，使 LLM 对量化更加稳健
✔️ QAP 在学习过程中模仿量化噪声，以实现快速推理，同时避免精度损失
✔️ 实验表明，即使在 4 位量化的情况下，推理速度也可提高 2.5 倍，同时保持精度。

Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models
written by Ilia Beletskii, Andrey Kuznetsov, Aibek Alanov
(Submitted on 23 Jun 2025)
Comments: The code of our method is available on GitHub at this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能，但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而，传统的量化方法存在一个问题，即通过降低模型的准确性来换取推理速度的提高。

本文表明，通过在 LLM 训练阶段引入量化感知的 "量化感知预训练"（QAP），可以克服这一权衡问题。
具体来说，通过在模型训练过程中提前模拟量化噪声的方法，实现了一种即使在量化后精度也不会轻易下降的结构。
因此，与传统模型相比，即使量化位宽相同，也能获得更高的精度和更快的推理性能。特别是，事实证明，与 FP16 精度模型相比，4 位量化模型的精度几乎没有下降，从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差，为将来应用量化做准备的方法。与传统的训练后量化（post-training quantisation）不同，QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说，最容易受到量化影响的线性变换层（尤其是注意力和 MLP）是以 4 位或 6 位精度模拟的，这一点反映在损失函数中。此外，预训练期间使用的数据和超参数与现有的高精度模型基本相同，因此实施 QAP 的额外成本可以忽略不计。
此外，所提出的方法还为量化敏感权重和激活添加了软正则化，从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中，具有很强的实用性，将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性，作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM，并对其准确性和推理速度进行了评估。

基准测试使用了多种任务，包括 MMLU、GSM8K 和 HumanEval，并对每个模型的性能进行了比较。
结果显示，与不支持的基本模型相比，在相同位宽下，QAP 实现的模型的准确率提高了 6.3 个百分点。
特别是在推理速度方面，该模型比基于 FP16 的模型快达 2.5 倍，同时运行精度几乎没有损失。

对不同量化方案（如 SmoothQuant、AWQ、GPTQ）的鲁棒性也进行了验证，结果表明，QAP'ed 模型能保持稳定的性能，与量化方案无关。
此外，培训成本的增加也非常小，这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明，QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。