言語モデルの"頭の中"を可視化 - 知識グラフで解明するLLMsの内部メカニズム

Computation and Language 2024年09月03日

3つの要点
✔️ LLMの潜在表現からゼロ階述語論理の形式で事実知識を抽出し、その時系列変化を知識グラフで可視化
✔️ 局所的な分析から実体解決や推論の失敗が、大局的な分析からは興味深い変遷パターンが明らかに
✔️ 人工知能システムの信頼性や安全性の向上に重要な示唆を与える

Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph
written by Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
(Submitted on 1 Jul 2021)
Comments: Preprint. Under review. 10 pages, 7 figures
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computers and Society (cs.CY)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

最近では、人工知能の中でも最も高度な言語理解能力を持つ大規模言語モデル(LLM)に大きな期待を寄せられています。これらのモデルは、驚くべき常識知識や事実知識を保持していることが分かってきました。しかし、その知識がどのように構造化され、推論に活用されているのかは未だ謎に包まれています。

本研究は、LLMsの内部メカニズムに迫ることで、これらモデルの知識活用プロセスの解明を目指しています。具体的には、LLMsが文章の真偽を判断する際に参照する事実知識の解明、その知識がモデルの深層構造の中でどのように変遷していくのかの分析、そして特徴的なパターンの抽出に取り組みます。

提案手法では、活性化パッチングと呼ばれる技術を用いて、LLMの潜在表現から形式知を抽出し、時系列的に知識グラフとして可視化します。これにより、LLMsの事実知識解決メカニズムの解明につながる重要な知見が得られると期待できます。言語モデルの解釈性向上は、AI技術の信頼性や安全性の確保にも直結する重要な課題です。

提案手法

本研究の提案手法の中核は、LLMの潜在表現から事実知識を抽出し、その時系列的な変遷を可視化することです(図1参照)。まず、入力文に対するLLMの推論プロセスから隠れ層の潜在表現を抽出します。次に、別の入力文での推論時に、この潜在表現を動的にパッチングする手法を用います。具体的には、入力文の主語や述語に対応する潜在表現を、事前に計算した加重平均表現に置き換えていきます。

この置換操作を繰り返すことで、LLMが内部的に参照している事実知識を段階的に引き出すことができます。抽出された知識はゼロ階述語論理の形式で表現され、時系列の知識グラフ上に構築されていきます。このフレームワークにより、LLMsの事実知識解決プロセスをダイナミックに分析することが可能になります。

特に、ノードエンベディングを用いた定量的な分析から、各隠れ層における知識の変遷パターンが明らかになります。初期層では実体解決、中間層では知識蓄積、最終層では表現の乏しさといった興味深い変遷が観察されました。このようなグラフ表現を用いた手法は、言語モデルの内部メカニズム解明に新しい知見をもたらすことが期待されます。

実験

提案手法の有効性を検証するため、2つの事実検証データセット(FEVER、CLIMATE-FEVER)を用いて実験を行いました。これらのデータセットには、真偽判断が必要な様々な事実主張が含まれています。

まず、LLMのタスクパフォーマンスを評価しました(表1)。その結果、FEVERデータセットでは真の主張に対する精度が高く、偽の主張に対しては recall が低い一方で、CLIMATE-FEVERデータセットではバランスの取れた性能を示しました。これは、後者ではcommonsense推論が必要とされるためと考えられます。

次に、ローカルなインタープリタビリティ分析を行いました(図2)。3つの主張事例について、各隠れ層の潜在表現からデコードされた事実知識の変遷を可視化したものです。早期の層では主に実体の解決に注力し、中間層では主題に関する知識が蓄積されていく一方で、最終層では事実知識の表現が乏しくなる傾向が見られました。また、多ホップ推論の失敗なども明らかになりました。

さらに、グローバルなインタープリタビリティ分析を行い(図3)、LLMの事実知識変遷に特徴的なパターンを発見しました。初期層では実体解決に、中間層では主題に関する知識蓄積に、最終層では注意が逸れる傾向があることが分かったのです。

以上の結果から、提案手法がLLMの事実知識解決プロセスの解明に有効であることが示されました。知識グラフ表現を用いた分析アプローチは、言語モデルの内部メカニズム理解に新たな知見をもたらすと期待できます。

考察と結論

本研究の主な貢献は、LLMsの潜在表現から事実知識を抽出し、その時系列的な変遷を知識グラフで表現するエンドツーエンドのフレームワークを提案したことにあります。このフレームワークにより、LLMsが主張の真偽を判断する際に参照する事実知識の解明、その知識の階層的な変遷の分析、そして特徴的なパターンの発見が可能になりました。

ローカルなインタープリタビリティ分析(図3)では、実体解決や多ホップ推論の失敗など、LLMsの内部メカニズムの詳細が明らかになりました。一方、グローバルな分析(図7)からは、初期層での実体解決、中間層での主題知識の蓄積、最終層での知識表現の乏しさといった興味深いパターンが見出されました。最終層での知識表現の低下は、文脈例への注意の集中が一因と考えられます。

このように、提案手法は言語モデルの知識活用メカニズムの解明に新たな知見をもたらしています。知識グラフを用いたアプローチは、モデルの内部構造を効果的に可視化し、解釈性向上につながると期待できます。今後、入力文脈の拡張など、更なる発展が期待されます。

本研究の成果は、人工知能技術の信頼性や安全性の確保に重要な示唆を与えるものと考えられます。LLMsの内部メカニズムの解明は、AIシステムの予測可能性向上や、バイアスの除去など、重要な課題解決に貢献するはずです。