通过大规模语言建模改变法律服务！在速度和准确性上超越人类？

大型语言模型 28/06/2024

三个要点
✔️ 大规模语言模型可实现与初级律师和外包法律从业人员相同或更好的绩效
✔️ 大规模语言模型在合同审查方面可比从业人员以更快的速度和更低的成本完成任务
✔️ 未来的工作是评估合同文件以外的复杂场景中的性能，例如不同的合同类型和合同谈判

Better Call GPT, Comparing Large Language Models Against Lawyers
written by Lauren Martin, Nick Whitehouse, Stephanie Yiu, Lizzie Catterson, Rivindu Perera (Onit AI Centre of Excellence)
(Submitted on 24 Jan 2024)
Comments: Published on arxiv.
Subjects: Computers and Society (cs.CY); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

人工智能（AI）在法律行业的发展为法律服务创造了新的可能性。然而，关于使用生成式人工智能和大规模语言模型（LLM）解决和发现法律问题的研究仍有很大的探索空间。尤其关键的是，要了解这些先进技术是如何准确分类和识别法律问题的，而这些问题依赖于人类法律专业人员多年积累的深厚知识和专业技能。

为了填补这一空白，本论文开展了一项实验性和探索性研究，深入探讨大规模语言模型在法律领域的能力。论文评估了大规模语言模型与人类法律从业人员（尤其是初级律师和外包法律从业人员）在实际法律工作中的对比情况。鉴于大规模语言模型的快速发展，本文深入探讨了这些技术在多大程度上可以在现有法律实践中有效发挥作用，并有可能在专业知识和效率方面超越人类专家。

本文特别关注三个问题

在识别和定位合同中的法律问题方面，大型语言模型是否优于初级律师和外包法律从业人员？
大型语言模型能否比初级律师和外包法律从业人员更快地审查合同？
与初级律师和外包法律从业人员相比，大型语言模型能否更经济高效地审查合同？

通过这项研究，我们旨在全面了解大规模语言模型在法律领域的潜在能力和局限性，并为法律和人工智能专业人士提供有价值的见解。

技术

本文将大规模语言模型的性能与初级律师和外包法律从业人员（LPO）的工作进行了比较。高级律师被确立为比较的基础，他们在合同文件中识别和定位法律问题的能力得到了测试。这种方法旨在复制真正的律师审查合同的过程。同时，从数据收集、分析到参与者参与，它都严格遵守 Onit 公司制定的道德标准。参与者事先会被详细告知研究的目的、数据的使用方式以及随时退出参与的权利。此外，个人身份信息将从数据中删除，参与者的匿名性也将受到保护。所使用的合同数据也会在过程中进行匿名化和去标识化处理，以便进行进一步的详细分析，从而确保严格的数据隐私。伦理委员会负责伦理监督和合规性，确保研究活动符合数据保护和隐私法规。这包括审核研究流程和检查法律合规性，确保按照高道德标准开展研究。

此外，还从实际法律合同中选取了 10 份采购合同作为数据来源。为保护机密性，所有这些合同都进行了匿名处理。采购合同是法律从业人员经常处理的合同类型，选择这些合同的依据是它们普遍存在保密协议。在选择合同时，我们考虑到要确保不同法律体系的平衡代表性，如美利坚合众国（US）和新西兰（NZ）。这种方法旨在确保研究结果适用于更广泛的法律体系。

高级律师还负责评估合同在多大程度上符合规定的标准，并建立基准数据。他们要确定合同是否符合或偏离规定的标准，并确定合同中导致这种情况的具体部分。他们还必须明确记录合同中缺失的任何必要信息。对这些数据进行汇总，并在此基础上形成与每项评估标准相对应的基准。

此外，还记录了审查合同所需的平均时间，并以此为基础，将法律从业人员审查合同通常所需的时间与初级律师、LPO 和大型语言模型所需的时间进行比较。这样，从数据收集到分析的过程旨在提高研究的可信度和透明度。

在确定律师每小时费率和大语言模型成本方面，律师每小时费率是根据行业基准报告（如 ACC 的《2023 年法律部门薪酬调查》）确定的内部律师费率和 Onit 公司维护的市场数据确定的外部律师费率确定的。费用基于以下因素。大型语言模型的成本根据服务提供商提供的商业价格确定。

此外，本文还考虑了为大规模语言建模选择模型的几个因素。这些因素包括测试模型在法律领域的适用性和有效性的初步测试结果，以及模型上下文窗口的局限性。本文特别仔细研究了 OpenAI、谷歌、Anthropic、亚马逊和 Meta 等领先公司开发的模型的性能和适用性。

初步测试研究了这些模型如何处理和分析样本合同文件。分析的重点是模型识别和定位法律问题的准确性以及推理能力的程度。重点还在于确定解决研究问题的最佳语境窗口大小，以及选择能够处理理解整个合同文件所需的语境信息的模型。

本文的分析还表明，上下文窗口的大小对模型的性能有直接影响：上下文窗口小于 16,000 个 token 的模型（如 LLaMA2 和 Amazon Titan）必须将文档分成多个部分、我们发现这样做效率很低。这种拆分损害了分析整个合同的能力。因此，我们将重点放在了具有较大上下文窗口的模型上，并建立了模型分析法律文件能力的代表性评估标准。

这种方法使我们能够深入探索大规模语言模型在法律分析中的适用性和有效性。通过更好地了解这些模型在法律领域中的工作原理，该研究旨在提供有助于推动未来研究和实践的见解。

此外，及时工程对于大型语言模型高效、准确地完成合同审查任务至关重要。这一过程包括让 LLM 采用特定的角色，并要求他们按照规定的标准评估合同。具体来说，提示由三个主要元素组成：角色、任务和语境。

角色：大语言模型在执行任务时被指示扮演律师的角色。
任务：大规模语言模型的任务是确定合同是否遵循或偏离了规定的标准，并找出问题所在。
语境：大规模语言模型模拟通常提供给律师、法律专业人员或合同审查人员的说明，包括合同的目标受众、合同双方的背景信息以及合同谈判的具体情景。

本文旨在利用这些元素来提高审查合同文件时的语境理解能力，目的是使大规模语言模型能够复制律师的实际工作。本文还仔细考虑了如何设计语境元素，以便在大规模语言模型执行的每项任务中取得最佳效果。下图是提示工程的一个具体实例。

实验和结果

本文使用 Cronbach's alpha 分析了三组律师（资深律师、初级律师和外包法律从业人员 (LPO)）之间的一致程度，以探讨大规模语言模型在法律领域的适用性。一致性结果如下图所示。

分析表明，全体参与者的意见高度一致，α 值为 0.923366，非常高。然而，只有资深律师的一致程度最低，仅为 0.719308，这表明经验丰富的从业人员在识别合同中的问题时采用了更多样化的方法。另一方面，初级律师的一致程度略高，阿尔法值为 0.765058，这可能反映出他们的培训方法更加一致，并遵守现有的法律框架。

它还评估了不同大型语言模型与初级律师和外包法律从业人员 (LPO)相比的准确性。这种比较评估以资深律师的判断作为参考数据。其中，GPT4-1106 和 LPO 从业人员在识别法律问题方面表现最佳，F 值为 0.87。这表明这些群体在识别法律问题方面具有很高的准确性和可靠性。而初级律师的 F 值为 0.86，略低于此值。这些结果表明，大语言模型在审查法律合同任务的时间效率方面优于初级律师和法律专业人员。

还对审查法律合同期间的时间效率进行了分析。分析结果表明，资深律师的效率最高，但大型语言模型的时间效率明显更高。其中，GPT-1106 的处理时间最长，而 Palm2 text-bison 的处理时间最短。这一结果表明，在审查法律合同的任务中，大型语言模型的时间效率远远高于初级律师和法律专业人员。

报告还对律师、法律专业干事和法律硕士的成本进行了详细比较。这种比较对于了解将法律硕士引入法律领域的经济影响非常重要，特别是在涉及合同中法律问题的识别和定位的任务中。与人工从业人员的成本相比，显然法律硕士可以大大降低每份文件的成本。这种成本效益是法律部门更多地使用法律硕士的强大动力。

尤其值得注意的是，法律专业人员之间的一致性达到了完美的阿尔法值 1，他们的回答绝对一致。这些结果为大规模语言模型如何补充和加强法律文件分析方法的多样性以及从业人员之间的一致性提供了宝贵的见解。

摘要

论文表明，大规模语言模型可以像外包法律从业人员（LPO）和初级律师一样准确地识别合同中的法律问题。尤其值得注意的是大规模语言模型在合同审查中的速度。大规模语言模型的计算效率使其具有比人类从业人员更快地处理和分析文本的显著优势。这种速度有可能显著提高合同审查的效率和响应时间。成本分析也证实，与初级律师和 LPO 相比，大规模语言模型为合同审查提供了成本更低的选择。对于希望简化合同审核流程的法律从业人员和律师事务所来说，高准确性、快速处理速度和低成本使大型语言模型成为一个极具吸引力的选择。