
TRACEALIGN:大規模言語モデルにおけるアライメントドリフトの原因追跡と防御策
3つの要点
✔️ TRACEALIGNは、LLMのアライメントドリフトを訓練データ由来の信念衝突として追跡・説明する枠組み
✔️ Belief Conflict Index(BCI)により、危険な生成がどの訓練スパンに基づくかを定量化した
✔️ TRACESHIELD・CBD Loss・Prov-Decodeを組み合わせ、ドリフトを最大85%低減
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
written by Amitava Das, Vinija Jain, Aman Chadha
(Submitted on 4 Aug 2025)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)
概要
LLMは、人間の価値観や方針に沿うようにファインチューニングされてきました。
しかし、実際には敵対的プロンプトや文の言い換え、あるいは生成過程のわずかな変化によって、モデルが安全でない出力を行う「アライメントドリフト」という現象が頻発しているとのこと。
従来研究は主に出力の拒否率や有害度といった外形的な指標に依存してきましたが、なぜモデルがドリフトを起こすのか、その原因に迫る枠組みは不足していました。
本論文では、この課題に対し「TRACEALIGN」という包括的フレームワークを提案。
TRACEALIGNは、危険な生成を訓練データ上のどの記憶に遡れるのかを明示的に追跡し、その出典を「Belief Conflict Index(BCI)」という尺度で定量化します。
さらに、推論時の拒否機構「TRACESHIELD」、学習時の罰則「Contrastive Belief Deconfliction Loss」、生成時の探索制御「Prov-Decode」という三つの防御策を組み合わせ、最大85%のドリフト低減を実現。
つまり本研究は、単なる出力の観察ではなく、モデルが保持する「信念」の矛盾に光を当て、その原因に基づく解釈可能で再現性のある対策を提示した点に大きな意義があります。
提案手法
TRACEALIGNの核心は「モデル出力の背後にある訓練時の信念を追跡する」点にあります。
まず「TRACEINDEX」と呼ばれるサフィックス配列ベースのインデックスを用いて、生成文に含まれる部分文字列(スパン)を訓練コーパスと照合。
これにより、モデルがどの文書断片を記憶・再利用しているのかを明確に特定できます。
次に「Belief Conflict Index(BCI)」を導入し、見つかったスパンがどれほど稀少か、また訓練分布からどれほど逸脱しているかを定量化します。
これにより、単なる生成ではなく「危険な記憶の再活性化」を測定可能にしました。その上で三つの介入策を提案しています。
第一にTRACESHIELDは推論時のフィルタで、高BCIスパンを含む応答を即座に拒否。
第二にCBD LossはDPO学習に罰則項を加え、危険な記憶を利用する生成を抑制。
第三にProv-Decodeはデコーディング過程で高リスクの候補を棄却し、安全な文生成に誘導。
これらを組み合わせることで、アライメントを「事後修正」から「信念由来の事前予防」へと転換させているのです。
実験
提案手法の効果を検証するため、本論文は「Alignment Drift Benchmark(ADB)」という新規の評価ベンチマークを構築。
ADBは、爆発物・サイバー犯罪・自傷・憎悪発言・金融詐欺という5領域、合計5,200件の敵対的プロンプトで構成され、表面的には教育的や歴史的な文脈を装いつつ、危険な回答を誘発する設計になっています。
この環境でLLaMA-2、OLMo-2、NeoXといった複数のモデルを用いて比較実験を行いました。
その結果、ベースラインでは40%超のプロンプトで危険な出力が観測されましたが、TRACEALIGNの三手法を組み合わせることでドリフト率は6.2%にまで低減。
同時に、拒否の自然さや一貫性を示すスコアも改善し、モデルの有用性を維持しつつ安全性を大幅に強化できることを確認しています。
さらに、各防御策を個別に適用した場合や組み合わせた場合のアブレーション実験を通じて、三者併用が最も効果的であることも示しました。
これにより、TRACEALIGNは理論的枠組みと実務的な有効性の両面を兼ね備えたアプローチであることが実証されています。
この記事に関するカテゴリー