
更好的注意机制提高了 LLM 长文本处理的性能!
三个要点
✔️ 验证了长文本反应模型的统一性能评估方法。
✔️ Accurate Attention 机制在长文本处理中表现出很高的性能。
✔️ 近似方法节省资源,但不准确。
A Controlled Study on Long Context Extension and Generalization in LLMs
written by Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
(Submitted on 18 Sep 2024(v1))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
背景
本文研究了大规模语言模型(LLM)如何扩展其处理较长语境的能力。传统上,LLM 是在短语境数据上进行训练的,但现实世界中的任务需要理解较长句子和文档的能力。例如,学习使用教科书、总结小说和解决基于大量实例的问题都需要掌握较长语境的能力。
然而,训练能够处理长句子的模型需要大量的计算资源,因此效率很低。因此,许多研究人员开发了一些方法,通过 "上下文扩展 "来调整已经训练好的模型。本文提出了处理长句的各种技术,但这些方法多种多样,各有利弊。
例如,用于长文本支持的注意力机制可大致分为两类:精确和近似。精确注意机制的精确度很高,但计算成本非常昂贵。另一方面,近似注意机制可降低计算成本,但准确度往往较低。本文使用统一的评估标准对不同的方法进行比较,并研究哪种方法最有效。
建议方法
本文提出的方法是一种 "语境扩展技术",用于调整现有的大规模语言模型(LLM),使其适应较长的语境。为了处理较长的上下文,常规模型在训练过程中只使用较短的文本,而现实世界的应用要求能够处理长文档和大量信息。
本文比较了在不大幅修改现有模型的情况下处理较长语境的不同方法,并考察了它们的有效性。
首先,语境扩展方法可分为 "精确注意机制 "和 "近似注意机制"。精确注意机制可以严格处理较长的上下文,因此有望获得较高的准确性,但同时也会耗费较多的计算资源。
而近似关注机制则是一种既能保持一定精度,又能节省计算资源的方法。
试验
在本文的实验中,对几种不同的方法进行了测试,以评估大规模语言模型(LLM)处理长句的性能。实验的目的是比较不同的 "语境扩展 "方法与现有模型的有效性,并量化模型处理长语境的性能。
首先,使用的基本模型是 "LLaMA2-7B",并在此模型上应用了不同的情境扩展方法。主要评估标准是 "复杂性 "和在 "大海捞针 "任务中的表现。复杂性是衡量模型预测句子能力的标准;数字越小,模型越好。干草堆中的针 "任务测试的是模型在长文档中找到特定信息的准确度。
实验结果表明,"NTK-RoPE "和 "CLEX "等使用精确注意机制的方法在困惑度和 "大海捞针 "中的表现都最好。即使上下文长度扩展到 32k 和 64k,这些方法也能保持较高的准确率。
相比之下,近似注意机制 "Landmark Attention "和 "LongLoRA "在短语境中表现出色,但随着语境变长,它们的准确性也随之下降。
此外,即使在较长的上下文中,具有精确 "注意 "机制的模型也能始终显示出良好的结果。其中,"NTK-32K "能够处理多达 32k 的上下文长度,即使上下文长度达到或超过 64k,也能保持一定的准确性。
另一方面,"LM-Infinite "和 "Self-Extend "等方法在短文中表现良好,但在长文中有时会遗漏信息。
在一项名为 RULER 测试的复杂语境处理任务中,基于 NTK 的模型的表现也优于其他方法,尤其是 "动态 NTK "模型随着语境长度的增加,显示出灵活的扩展性和稳定的结果。
这项实验的结果为我们理解如何将模型扩展用于长文本处理提供了重要指导。
结论
本文的结论为改进长语境大规模语言模型(LLM)的方法提供了启示,凸显了准确注意机制的卓越性能,尤其是在长语境任务中。
实验结果表明,困惑度(预测准确度的衡量标准)与任务成功率密切相关,在处理长语境时,准确的注意机制是关键。结论是,根据任务的特点,有必要谨慎选择是使用精确的注意机制,还是采用近似方法。
论文还提到了未来的研究方向,如在开发长文本处理模型时优化超参数的调整,以及需要设计以更少的计算资源获得同等性能的方法。预计这将进一步推动长文本处理模型的发展。
与本文相关的类别