赶上最新的AI论文

语言模型

语言模型 "内部 "的可视化--知识图谱揭示的 LLM 内部机制

计算与语言

三个要点
✔️ 从零阶谓词逻辑形式的 LLM 潜在表征中提取事实知识,并在知识图谱中将其时间序列变化可视化
✔️ 局部分析揭示实体解析和推理失败,而全局分析则揭示有趣的过渡模式

✔️ 对提高人工智能系统的可靠性和安全性具有重要意义

Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph
written by Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
(Submitted on 1 Jul 2021)
Comments: 
Preprint. Under review. 10 pages, 7 figures
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computers and Society (cs.CY)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

最近,人们对大规模语言模型(LLMs)寄予厚望,它们是在语言理解方面最先进的人工智能模型之一。人们发现,这些模型拥有非凡的常识和事实知识。然而,这些知识是如何结构化并用于推理的仍然是一个谜。

本研究旨在通过探究LLM的内部机制来阐明这些模型的知识利用过程。具体来说,我们致力于澄清 LLM 在判断文本真假时所参考的事实知识,分析这些知识如何在模型的深层结构中转换,并提取特征模式。

所提出的方法使用了一种名为 "激活修补 "的技术,从 LLMs 的潜在表征中提取正式知识,并将其可视化为随时间变化的知识图谱。这有望为 LLM 的事实知识解析机制提供重要见解。提高语言模型的可解释性是一个重要问题,也直接关系到确保人工智能技术的可靠性和安全性。

建议方法

所提方法的核心是从 LLM 的潜在表征中提取事实知识,并将其按时间顺序的演变过程可视化(见图 1)。首先,从 LLM 对输入句子的推理过程中提取隐层潜在表征。接下来,该方法会在对不同输入句子进行推理的过程中动态修补该潜在表征。具体来说,与输入句子的主语或谓语相对应的潜表征会被预先计算的加权平均表征所取代。

通过重复这种替换操作,可以逐步提取出 LLM 内部引用的事实知识。提取的知识以零序谓词逻辑的形式表达,并在时间序列知识图谱上构建。通过这一框架,可以对 LLM 的事实知识解析过程进行动态分析。

特别是,利用节点嵌入进行的定量分析揭示了每个隐藏层的知识过渡模式。我们观察到了一些有趣的过渡,如初始层的实体解析、中间层的知识积累和最终层的表征不佳。这种使用图表示的方法有望为阐明语言模型的内部机制带来新的见解。

试验

为了测试建议方法的有效性,我们在两个事实验证数据集(FEVER 和 CLIMATE-FEVER)上进行了实验。这些数据集包含各种需要判断真假的事实陈述。

首先,对 LLM 的任务性能进行了评估(表 1)。结果表明,"FEVER "数据集的真索赔准确率较高,而假索赔召回率较低,而 "CLIMATE-FEVER "数据集的表现则比较均衡。这可能是由于后者需要常识推理。

接下来,我们进行了局部可解释性分析(图 2),直观地显示了三个索赔案例中每个隐藏层从潜在表征解码出的事实知识的演变过程。据观察,早期层主要侧重于解决实体问题,而中间层则积累了主题知识,而最后一层对事实知识的表征往往较差。多跳推理的失败也很明显。

我们还进行了全局可解释性分析(图 3),结果发现,LLMs 的事实知识过渡有一个独特的模式。我们发现,最初一层往往侧重于实体解析,中间一层侧重于学科知识积累,而最后一层则侧重于注意力转移。

这些结果表明,所提出的方法能有效地阐明 LLM 的事实知识解析过程。使用知识图谱表示的分析方法有望为理解语言模型的内部机制带来新的见解。

讨论和结论

本研究的主要贡献在于提出了一个端到端的框架,用于从法律学者的潜在表征中提取事实知识,并在知识图谱中表示其按时间顺序的演变。通过这一框架,可以阐明法律学者在判断其主张的真伪时所参考的事实知识,分析这些知识的层次演变,并发现独特的模式。

局部可解释性分析(图 3)揭示了 LLM 内部机制的细节,如实体解析和多跳推理失败。另一方面,全局分析(图 7)揭示了有趣的模式,如初始层的实体解析、中间层的主题知识积累和最后一层的知识表征。最后一层的知识代表性较差,部分原因可能是由于注意力集中在上下文实例上。

因此,所提出的方法为语言模型的知识利用机制提供了新的见解。基于知识图谱的方法有效地将模型的内部结构可视化,有望提高可解释性。预计未来还会有进一步的发展,例如扩展输入语境。

这项研究的成果应该会对人工智能技术的可靠性和安全性产生重要影响:阐明 LLM 的内部机制应该有助于解决一些重要问题,如提高人工智能系统的可预测性和消除偏差。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们