最新AI論文をキャッチアップ

ランク1更新で実現するLLM安全性増幅!ROSIの仕組みと実験結果

ランク1更新で実現するLLM安全性増幅!ROSIの仕組みと実験結果

LLM-Paper

3つの要点
✔️ ROSIはLLMの安全性を増幅する軽量なランク1更新手法
✔️ 有害指示拒否率を高めつつ通常タスク性能を維持できるとのこと
✔️ 無検閲モデルにも再適用可能でラストマイル安全化に有効である

Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
written by Harethah Abu ShairahHasan Abed Al Kader HammoudGeorge TurkiyyahBernard Ghanem
(Submitted on 28 Aug 2025)
Comments: Under Review

Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

概要

本論文は、LLMの安全性を高める新しい手法「Rank-One Safety Injection(ROSI)」を提案しています。

近年、LLMは幅広い応用で活躍する一方、危険な内容を生成しないようにする「安全性アライメント」が課題となっています。
しかし、この仕組みは脱獄攻撃(jailbreak)によって容易に突破されることが報告されているとのこと。
従来の研究では「拒否方向」と呼ばれる一次元の表現空間を消去することで安全性を無効化できることが知られていました。

本研究はその逆発想を採用し、この「拒否方向」を強化することで安全性を増幅する軽量かつ解釈可能な方法を開発。
ROSIは、モデルの重み行列にランク1の更新を加えるだけで機能し、再学習や大規模な調整を必要としません。

実験では、ROSIが有害要求への拒否率を向上させつつ、通常タスクにおける性能をほとんど損なわないことを確認し、また安全性を意図的に取り除いたモデルにも再適用できることを示しました。

提案手法

ROSIは、LLM内部の線形表現を活用し、安全性に関わる方向性を抽出し、それをモデルの重みに組み込むシンプルな仕組みです。

まず、無害な指示と有害な指示に対するモデルの活性化を比較し、差分から「安全方向ベクトル」を導出。
これは、無害応答クラスタと有害応答クラスタの中心差として定義され、モデルが拒否を行うための一次元的特徴を表現します。

その後、この方向ベクトルを基に、残差ストリームへ書き込む出力行列にランク1の補正を加えます。
具体的には、行列に安全方向を付加する形で更新を行い、モデルの出力が常に拒否方向へわずかに傾くように設計されているとのこと。

この更新は非常に軽量で、全層に一括適用しても再学習を必要とせず、効率的に機能します。
従来の推論時操作(activation steering)とは異なり、ROSIは恒久的で解釈可能な修正を行い、モデルの行動を根本から安定化させます。

実験

著者らは、ROSIの有効性を複数の実験で検証しました。

まず、安全性アライメント済みのモデル群(LLaMA、Qwen、Gemma、Yiなど)に適用し、有害指示に対する拒否率が大幅に向上することを確認。
特に元々弱いモデルでは+13〜18ポイントの改善が見られました。

さらに、脱獄攻撃(DAN、Harmbench、WildGuardTestなど)に対しても顕著な耐性向上を示し、攻撃成功率を半減以下に抑えたとのこと。
一方で、MMLUやHellaSwagなどのベンチマークスコアはほぼ変化せず、通常タスクの有用性が維持されることを示しました。

次に、安全性を意図的に外した「無検閲モデル」(Dolphin系)にもROSIを適用し、安全方向を再注入することで拒否率を30%以上改善し、最大で100%の安全性を回復。
さらに、性能劣化もほぼ見られず、後処理的な「ラストマイル安全化手法」としての有効性を実証しました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする