赶上最新的AI论文

我们何时应该相信法律硕士?

我们何时应该相信法律硕士?

自然语言处理

三个要点
✔️ 以问答形式分析 LLM 在参数中存储的知识
✔️ 问题的正确答案比例与问题主题的受欢迎程度成正比
✔️ 根据受欢迎程度应用外部知识,实现快速和高性能

When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
written by Alex MallenAkari AsaiVictor ZhongRajarshi DasDaniel KhashabiHannaneh Hajishirzi
(Submitted on 20 Dec 2022)
Comments:ACL 2023; Code and data available at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)


code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍。

大规模语言模型(LLMs),如 GPT-3,因其卓越的性能而备受关注。用大参数和训练数据训练出来的 LLM 通常会在参数中保留事实和常识等知识,据说有能力在一定程度上回答我们的问题。这种知识被称为参数知识,因为它蕴含在参数中。

然而,另一方面,法学硕士的所谓 "谎言"(也称为幻觉或最近的 "confabulations")也受到了质疑。有时他们的知识是正确的,有时却是错误的。在这种情况下,他们需要我们的知识和维基百科等网络外部信息的补充,才能对某个问题做出推断。这种不包含在参数中的外部知识被称为非参数知识。

在本文中,作者试图分析在何时和何时不信任 LLM 的知识以及在此基础上获取外部知识之间的区别,目的是实现检索增强型 LLM,在必要时应用外部知识进行推理。

具体来说,要解决以下三个研究问题

  1. 法律硕士在多大程度上掌握了事实知识,是什么影响了他们的记忆?
  2. 非参数知识的获取能在多大程度上补充参数知识?
  3. 实施一个酌情将非参数知识和参数知识相结合的系统是否可行?

问题 1:根据参数知识分析 LLM

作者创建了一个新的数据集,用于分析 LLM 中的参数知识:PopQA 是一个非常简单的问题,根据维基百科中的三元组(主题、关系、对象)给出正确答案。正确答案已给出。本节使用 PopQA 分析法律硕士的知识。

在实验中,对于 PopQA 中的每个三元组,主题维基百科页面的每月浏览量被定义为流行度。这种流行度是作为该主题在网络上讨论频率的指标引入的。此外,下面的实验还使用了一个名为 EntityQuestions 的数据集:与 PopQA 不同,EntityQuestions 以每页的超链接数量来定义流行度。如下图 3 所示,PopQA 和 EntityQuestions 都是流行度呈长尾分布的数据集。

受欢迎程度与正确答案百分比之间的相关性。

PopQA 的实验使用了几个典型的 LLM。对于成本较高的模型(如 API),输入设置为 "0-shot";对于其他模型,输入设置为 "15-shot",提示格式为 "Q: <question> A:"。

上图显示了实验结果。上图显示的是正确答案的百分比,下图显示的是正确答案百分比与每个模型受欢迎程度之间的相关系数。

上图显示,参数越大的模型,正确答案的百分比越高,说明参数越多,可嵌入的知识越多。

从下图中可以看出,除了某些关系之外,模型越大,正确答案百分比与流行度之间的相关性越强。这表明,LLM 中参数知识的记忆取决于该主题在网络上的流行程度。

关系的影响。

您还可以看到,每种关系的结果性质都不同。作者指出,有些关系可以很容易地 "猜 "出来,而不需要记住事实。再看一下结果,我们可以发现,虽然国家和体育的正确答案比例高于其他关系,但它们与受欢迎程度的相关性很弱。作者认为,这表明模型是根据输入的表面信息来回答问题的,而与问题的主题无关。对结果的分析还显示,在正确回答率与相关性强度之间存在差距的关系中,模型输出的答案也是相同的。

扩展和尾部知识

上图显示了参数数量、正确答案百分比和受欢迎程度之间的关系。可以看出,随着参数数量的增加,高人气实体(暖色调)的正确答案百分比也在增加,而人气较低的实体(冷色调)的正确答案百分比则始终很低,无论参数数量的大小如何。这些结果表明,所谓的缩放定律,即随着参数数量的增加,性能也会成正比增加,并不一定适用于不太受欢迎的实体。

问题 2:用非参数知识补充参数知识

然后,它测试了通过检索非参数知识来扩展模型的方法(检索增强 LLMs)的有效性。

检索的有效性。

该实验对 BM25 和 GenRead 进行了对比,BM25 是一种使用 Contriever 预训练从维基百科检索知识的方法,而 GenRead 则是一种通过提示从 LLM 检索知识的方法。请注意,本实验中的所有问题都给出了非参数知识。

结果如上图 7 所示,从图中可以看出,与没有检索的模型(即没有非参数知识(香草)的模型)相比,检索增强 LLM 的性能更好。

外部知识和知名度

在对结果进行更详细的分析时,发现了以下有趣的趋势

从上图可以看出,检索增强模型(BM25、Contriever)的性能在相对不那么流行的问题上优于 Vanilla,而在比较流行的问题上则等于或低于 Vanilla。由此看来,检索并非对所有输入都有效。我们还可以看到,尽管使用了来自 LLM 的参数知识,GenRead 的表现仍然普遍优于 Vanilla。这可能是提示如何有效利用参数内知识的一个例子。

非参数知识并不总是有效的。

我们详细分析了检索增强模型在使用高流行度输入时准确率较低的现象,区分了检索增强模型和非检索模型(GPT-3)中的正确答案和错误答案,然后计算了召回率@1(正确答案是否包含在检索文档(外部知识)的前 1 位)。(正确答案是否包含在前 1 个检索文档中(外部知识))。

结果见上表 1。括号中的数值是各类问题在 PopQA 总数中所占的百分比。我们可以看到,在没有检索的情况下,模型正确回答的问题和有检索的情况下模型错误回答的问题(右上角),1@recall 都明显较低,占所有问题的 10%。因此,我们认为,由于模型被错误检索的外部知识误导,导致最终性能降低。

问题 3:自适应检索。

根据之前的实验结果,我们设计了一个模型,通过适当使用参数和非参数知识来回答问题。

自适应检索是一种在输入问题的受欢迎程度低于阈值时检索和回答外部知识的模型。在实验中,阈值是为每个关系设置的。BM25 用于检索。

上图显示了实验结果:自适应检索模型(绿色)优于无检索模型(蓝色)和无参数知识模型(橙色)。然而,对于参数数量较多的模型(图中右侧),自适应检索模型与其他模型的性能差异并不明显。作者对这一现象的分析表明,根据模型的大小,根据外部知识进行检索的比例存在差异。

上图显示了分析结果。纵轴表示使用非参数知识的模型百分比,可以看出,随着模型参数数量的增加,对外部知识的检索也在减少。简而言之,这表明较小的模型几乎完全依赖外部知识,而较大的模型则主要通过参数知识来回答。

因此,我们得出结论,自适应检索的优势随着模型的增大而减小,原因很简单,检索的机会减少了,与没有检索的模型的结构差异也变小了。

除此以外,有观点认为,自适应检索在输出答案前的计算速度方面更胜一筹,因为它可以根据受欢迎程度灵活地决定是否检索。

摘要

本文在检索增强 LLMs 中实施了一个系统,该系统使用参数知识,但在必要时会检索外部知识,利用流行度来区分 LLMs 中的知识何时可信,何时不可信。

由于 LLMs 可以产生非常自然的输出,因此需要谨慎处理。这项工作可以自动确定 LLMs 输出的可靠性,并允许我们依靠内部知识获取可用信息,在 LLMs 未覆盖的领域使用外部信息。这是一篇非常有趣的论文,旨在实现强大的基于 LLMs 的推理和问题解答。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们