GPT 参加律师资格考试

计算与语言 26/02/2024

三个要点
✔️ 律师资格考试是获得律师执业资格的必要条件，需要具备较高的法律知识才能通过。
✔️ 采用最先进的人工智能技术来评估考试部分的成绩。
✔️ 在律师资格考试的 MBE 部分表现非常出色。

GPT Takes the Bar Exam
written by Michael Bommarito II, Daniel Martin Katz
(Submitted on 29 Dec 2022)
Comments: Additional material available online at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

律师资格考试是获得律师执业资格的必要条件，要求考生具备高水平的法律知识才能通过考试。为了通过考试，许多考生都要接受数年的法学院教育并进行专门的考试准备。然而，考试通过率相对较低，约有五分之一的人在第一次考试中未能通过。其中，多州多项选择 (MBE) 部分包括有关基本法律原则和如何应用法律的多项选择题。要通过律师资格考试，一般需要在 MBE 部分达到一定的及格标准。

因此，我们使用 OpenAI 的文本-davinci-003 模型（通常称为 GPT-3.5）这一最先进的人工智能技术来评估 MBE 部分的表现。GPT-3.5 在没有特定训练数据的情况下表现良好，但它能否在模拟测试中取得较高的正确率呢？

背景

法律系统正变得日益复杂，对法律服务的需求也在不断增加。为了应对这种情况，我们正在引入人工智能和流程工程，使法律专业人员和普通大众都能从中受益。

然而，法律文件和术语可能非常复杂且难以理解。与普通语言不同，法律语言高度形式化，公众和人工智能系统可能难以理解。此外，法律术语可能因语境不同而有不同的含义。

尽管存在这些挑战，人工智能技术的进步已使自然语言处理（NLP）领域取得了重大进展。特别是基于转换器的大规模语言模型（LLM）的出现，使先进的文本处理成为可能。这些模型也对复杂法律问题的评估提出了挑战。

数据

律师资格考试是法律以及医学、牙医学、药学、会计学和工程学等专业领域的专业资格考试。在美国，每个州都有自己的法律执照要求，但全美律师资格考试委员会（NCBE）设计了全美使用的大部分律师资格考试教材。

通过律师资格考试需要做大量准备工作。一般来说，通过考试需要大量的理论知识以及理解和回答考试特定问题的能力。

近年来，大多数州都采用了统一律师资格考试 (UBE)，其中包括三个部分：多项选择测试、论文测试和情景表演测试。选择题考试通常占律师资格考试总成绩的 50%，旨在测试法律知识和阅读理解能力。

在这项研究中，国家律师协会购买了由国家律师协会提供的标准化备考材料，并使用了律师资格考试的练习题和模拟测试。

建议方法

在 GPT-3.5 的实验评估中使用的 text-davinci-003 文本补全 API 采用了一种称为 "零镜头提示 "的技术。这是一种可以立即应用于新任务和新领域的技术，而无需事先对模型进行特定任务的训练。

首先，介绍一种称为 "提示工程 "的方法。这是设计和定制模型所需的提示以产生适当输出的过程。我们会尝试多种提示类型，并找出最有效的类型。

下一步是调整 API 超参数。在生成文本时，GPT 模型使用以下参数来控制其输出的质量和多样性。

-温度：控制模型生成文本多样性的参数。在较低的温度下，模型生成的文本更可信、更可预测，而在较高的温度下，模型生成的文本更多样化。
-Top-p抽样 ：这是一种对模型生成的词块进行抽样的方法，其出现的总概率不超过某个阈值。这可以控制生成的标记的多样性。
-bestof ：当模型产生多个候选词时，该参数用于选择最合适的候选词。这将增加选择最合适答案的概率。
-max tokens ：该参数限制了可生成文本的最大标记数。这可以防止生成过多的输出。

此外，还进行了微调，以使预训练模型适应特定任务。我们还尝试使用未知的模拟 MBE 律师资格考试试题进行微调，但并未提高模型在生产中的性能。

结果

本研究共进行了 107 次提示和参数组合试验。结果显示，第 7 种提示方式（前三个选项的排名顺序）最有效，在这种提示参数组合下共收集到 41 次样本运行。这些运行结果表明，与基线通过率相比，GPT 尚未完全通过，但通过率高于随机概率。此外，在某些类别中，GPT 的表现与人类考生不相上下，但在其他类别中，两者之间的差异则更大。下图显示了 GPT-3.5 和 NCBE 报告的学生成绩按问题类别的比较。