
GPT 参加律师资格考试
三个要点
✔️ 律师资格考试是获得律师执业资格的必要条件,需要具备较高的法律知识才能通过。
✔️ 采用最先进的人工智能技术来评估考试部分的成绩。
✔️ 在律师资格考试的 MBE 部分表现非常出色。
GPT Takes the Bar Exam
written by Michael Bommarito II, Daniel Martin Katz
(Submitted on 29 Dec 2022)
Comments: Additional material available online at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
律师资格考试是获得律师执业资格的必要条件,要求考生具备高水平的法律知识才能通过考试。为了通过考试,许多考生都要接受数年的法学院教育并进行专门的考试准备。然而,考试通过率相对较低,约有五分之一的人在第一次考试中未能通过。其中,多州多项选择 (MBE) 部分包括有关基本法律原则和如何应用法律的多项选择题。要通过律师资格考试,一般需要在 MBE 部分达到一定的及格标准。
因此,我们使用 OpenAI 的文本-davinci-003 模型(通常称为 GPT-3.5)这一最先进的人工智能技术来评估 MBE 部分的表现。GPT-3.5 在没有特定训练数据的情况下表现良好,但它能否在模拟测试中取得较高的正确率呢?
背景
法律系统正变得日益复杂,对法律服务的需求也在不断增加。为了应对这种情况,我们正在引入人工智能和流程工程,使法律专业人员和普通大众都能从中受益。
然而,法律文件和术语可能非常复杂且难以理解。与普通语言不同,法律语言高度形式化,公众和人工智能系统可能难以理解。此外,法律术语可能因语境不同而有不同的含义。
尽管存在这些挑战,人工智能技术的进步已使自然语言处理(NLP)领域取得了重大进展。特别是基于转换器的大规模语言模型(LLM)的出现,使先进的文本处理成为可能。这些模型也对复杂法律问题的评估提出了挑战。
数据
律师资格考试是法律以及医学、牙医学、药学、会计学和工程学等专业领域的专业资格考试。在美国,每个州都有自己的法律执照要求,但全美律师资格考试委员会(NCBE)设计了全美使用的大部分律师资格考试教材。
通过律师资格考试需要做大量准备工作。一般来说,通过考试需要大量的理论知识以及理解和回答考试特定问题的能力。
近年来,大多数州都采用了统一律师资格考试 (UBE),其中包括三个部分:多项选择测试、论文测试和情景表演测试。选择题考试通常占律师资格考试总成绩的 50%,旨在测试法律知识和阅读理解能力。
在这项研究中,国家律师协会购买了由国家律师协会提供的标准化备考材料,并使用了律师资格考试的练习题和模拟测试。
建议方法
在 GPT-3.5 的实验评估中使用的 text-davinci-003 文本补全 API 采用了一种称为 "零镜头提示 "的技术。这是一种可以立即应用于新任务和新领域的技术,而无需事先对模型进行特定任务的训练。
首先,介绍一种称为 "提示工程 "的方法。这是设计和定制模型所需的提示以产生适当输出的过程。我们会尝试多种提示类型,并找出最有效的类型。
下一步是调整 API 超参数。在生成文本时,GPT 模型使用以下参数来控制其输出的质量和多样性。
-温度:控制模型生成文本多样性的参数。在较低的温度下,模型生成的文本更可信、更可预测,而在较高的温度下,模型生成的文本更多样化。
-Top-p抽样 :这是一种对模型生成的词块进行抽样的方法,其出现的总概率不超过某个阈值。这可以控制生成的标记的多样性。
-bestof :当模型产生多个候选词时,该参数用于选择最合适的候选词。这将增加选择最合适答案的概率。
-max tokens :该参数限制了可生成文本的最大标记数。这可以防止生成过多的输出。
此外,还进行了微调,以使预训练模型适应特定任务。我们还尝试使用未知的模拟 MBE 律师资格考试试题进行微调,但并未提高模型在生产中的性能。
结果
本研究共进行了 107 次提示和参数组合试验。结果显示,第 7 种提示方式(前三个选项的排名顺序)最有效,在这种提示参数组合下共收集到 41 次样本运行。这些运行结果表明,与基线通过率相比,GPT 尚未完全通过,但通过率高于随机概率。此外,在某些类别中,GPT 的表现与人类考生不相上下,但在其他类别中,两者之间的差异则更大。下图显示了 GPT-3.5 和 NCBE 报告的学生成绩按问题类别的比较。
这种性能差异可能是由于训练数据中未包含 GPT,或模型中的知识体系被删除,或由于研究设计的复杂性。为了探索这些可能性,我们对 GPT 进行了 "接近 "修正检查。结果显示,某些类别的 GPT 答案显示等级与准确率之间的相关性较低,这就提出了测试设计是导致成绩不佳的原因的可能性。
此外,排名第二的 GPT 答题与正确率高度相关,排名前两位的答题超过了基线随机概率。总体而言,GPT 回答明显优于通过率,尤其是民事诉讼类别例外,显示出很强的相关性。
结论
研究表明,GPT-3.5 在律师资格考试 MBE 部分的表现非常出色,GPT-3.5 的通过率等于或优于未进行任何微调的人类应试者,并明显高于随机猜测基线。这表明,GPT-3.5 在法律领域的理解和推理能力要高得多。
展望未来,GPT-4 和 LAION 的 Bloom 系列模型等新模型有望出现。这些模型可进一步提高法律理解和推理能力。此外,还计划在 MBE 以外的考试科目中对 GPT-3.5 进行评估,从而进一步了解 GPT 系列和其他模型在各种法律考试中的表现。
与本文相关的类别