最新AI論文をキャッチアップ

アウトライヤーを防いで量子化精度を守る、大規模言語モデル向けOutlier-Safe Pre-Trainingの革新

アウトライヤーを防いで量子化精度を守る、大規模言語モデル向けOutlier-Safe Pre-Trainingの革新

LLM-Paper

3つの要点
✔️ アウトライヤーの発生を防ぐ訓練手法「OSP」を提案し、量子化性能を根本から改善
✔️ Muon最適化・単一スケール正規化・埋め込み射影により、極端な活性化値を抑制
✔️ 1兆トークン規模の実験で、4ビット量子化でも高精度を維持し、既存モデルを大きく上回った

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
written by Jungwoo ParkTaewhoo LeeChanwoong YoonHyeon HwangJaewoo Kang
(Submitted on 24 Jun 2025)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

概要

LLMの4ビット量子化は、推論時のメモリ使用量を大幅に削減できることから、オンデバイス展開において重要な技術です。しかし、訓練中に発生する「アウトライヤー(極端な活性化値)」がこの量子化の性能を著しく低下させることが知られています。従来の対処法では、ポストトレーニング量子化(PTQ)などにより訓練後に対応してきましたが、これらは根本的な解決には至らず、アウトライヤーを不可避なものとして扱ってきました。

本研究では、この問題に対する新たな視点として、「Outlier-Safe Pre-Training(OSP)」という訓練フレームワークを提案。OSPは、Muong最適化手法、単一スケールのRMS正規化(SSNORM)、および学習可能な埋め込み射影(EMBPROJ)という3つの要素から構成されており、アウトライヤーの発生自体を抑制することを目指します。1.4Bパラメータモデルを1兆トークン規模で訓練することで、従来モデルと比べて著しい量子化耐性の向上と、性能劣化の抑制を実現しました。

提案手法

提案するOutlier-Safe Pre-Training(OSP)は、アウトライヤーの発生を根本から防止するために設計された事前学習手法です。このフレームワークは、以下の3つの構成要素から成り立っています。

第一に、「Muon最適化手法」は、従来のAdamやAdaFactorのような対角事前条件化最適化とは異なり、勾配行列を直交化するアルゴリズムを用います。これにより、特定チャネルへの活性化集中(特権基底)を防ぎ、全チャネルにわたって均等な学習が可能に。

第二に、「Single-Scale RMSNorm(SSNORM)」では、従来のチャネル単位のスケーリングを排除し、全次元に対して単一のスケーリング係数を用いることで、正規化による偏りを防ぎます。これにより、訓練中の不安定性を抑えつつ、活性化の過度な抑制も避けることができるとのこと。

第三に、「Embedding Projection(EMBPROJ)」は、埋め込み層から生じる局所的アウトライヤーを防ぐため、学習可能な射影行列を用いて活性化の分布を均一化します。Embedding層のみAdamを用いて訓練し、それ以外のパラメータにはMuonを適用するという分離最適化戦略も採用され、実用性と計算効率の両立が図られています。

実験

実験では、1.4BパラメータのLLMを対象とし、1000億および1兆トークンを用いたスケーラブルな訓練を行いました。まず、アウトライヤーの定量化には「超過尖度(Excess Kurtosis)」を用い、その推移を観察。従来のAdamで訓練したモデルでは、尖度が1000を超える異常値を示した一方、OSPを用いたモデルでは0.04という極めて低い値を維持し続けました。

また、4ビット量子化における性能を検証するために、10種のベンチマーク(ARC、MMLU、GSM8kなど)における平均スコアを比較。Adamで訓練されたモデルが26.5点であったのに対し、OSPモデルは35.7点を記録しました。さらに、ポストトレーニング量子化(PTQ)手法との併用においても、OSPモデルは常に低いパープレキシティを維持し、堅牢な量子化性能を示したとのこと。

加えて、注意機構における「アテンションシンク」現象についても分析し、アウトライヤーの消失後もこの現象が継続することから、両者が異なるメカニズムによって発生することが示唆されました。これにより、OSPは量子化に最適化された訓練方法としての有効性が実証されたのです。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする