赶上最新的AI论文

ChatGPT 和 GPT-4 挑战特许金融分析师考试!测试大规模语言模型在金融领域的适用性

ChatGPT 和 GPT-4 挑战特许金融分析师考试!测试大规模语言模型在金融领域的适用性

大型语言模型

三个要点
✔️ 评估大规模语言模型 的金融推理性能通过解决需要金融领域专业知识的模拟 CFA 考试问题,评估了 ChatGPT 和 GPT-4 在金融推理问题上的实用性和局限性
✔️ 考试成绩的详细分析:通过 CFA 考试的一级和二级练习题,我们发现大规模语言模型在某些金融题目(如衍生工具和股票投资)上表现出色,但在其他题目(如财务报告和投资组合管理)上却举步维艰。研究显示

✔️ 提高金融专业知识和解决问题能力的建议:为提高大规模语言模型在金融领域的适用性提出了策略和改进建议,包括提高金融专业知识的数字和表格处理能力。

Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams
written by Ethan CallananAmarachi MbakweAntony PapadimitriouYulong PeiMathieu SibueXiaodan ZhuZhiqiang MaXiaomo LiuSameena Shah
(Submitted on 12 Oct 2023)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); General Finance (q-fin.GN)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

大规模语言模型的出现改变了自然语言处理领域。尤其是 OpenAI 的 ChatGPT、GPT-4、LLaMA 和 PaLM 等模型,因其直截了当的对话风格而受到广泛关注。这些模型在从文本摘要到代码生成和问题解答等广泛的任务中表现出色。它们还被用于金融领域,以改善客户服务和分析情感。不过,针对金融特定任务的通用自然语言处理模型仍有改进空间。

本文利用特许金融分析师(CFA)课程的模拟试题来探讨大规模语言模型在实际金融推理问题中的实用性,并评估了特许金融分析师考试(该考试被称为对金融专业知识的详细和实用知识的测试)和大规模大规模语言模型被认为是评估它们在多大程度上可用于理解和解决复杂金融推理问题的最佳案例研究。本文详细分析了如何估算 CFA 考试一级和二级的成绩。

研究表明,ChatGPT 和 GPT-4 在财务推理问题上有一定的表现,但在某些问题上也暴露出局限性。

报告还讨论了提高大规模语言模型在金融领域的适用性的战略和改进措施。这包括对新研发方向的建议,如纳入金融专业知识和提高解决问题的技能。

本研究首次全面评估了 ChatGPT 和 GPT-4 在金融推理问题上的能力,旨在为提高大规模语言模型在金融领域的适用性奠定基础。

数据集

本数据集中使用的 CFA 是一个三级考试,涵盖从金融基础知识到资产评估、投资组合管理和财富规划等广泛内容。拥有金融、会计、经济和商业知识的人在从事金融行业时都会参加该考试,获得 CFA 证书是从事投资管理和风险管理等职业的重要资格。

此外,无论级别高低,CFA 考试的每道试题都与十个不同金融主题中的一个相关:道德、定量方法、经济学、财务报表分析、公司发行人、投资组合管理、股票投资、固定收益、衍生工具和另类投资。第一级包括总共 180 道独立的多项选择(三选一)题。第二级包括 22 个项目组(三项选择题),每个项目组包含一个子作业(案例描述和证据)。第三级由论述题(论证题和简答题)和项目组(三选一题)混合组成。

夷为平地 测试格式
I 多项选择
II 项目集(3 个选择题)
III. 50% 作文(作文和简答题)
50% 项目集(三选一题)

不过,由于 CFA 考试没有公布正式试题,因此我们使用模拟考试来确定研究和模型的基准。在本研究中,我们特别关注一级和二级试题,因为三级试题需要纯文本答案。我们收集了五份一级模拟试题和两份二级模拟试题,并附有 CFA 协会公布的示例。在该数据集中,每个金融题目都按适当比例呈现,这清楚地表明了每个级别的试题结构和题目的重要性。

下图显示了第一和第二级的样题。

下表还提供了 I 级和 II 级问题的统计数据。

实验程序

在使用 CFA 模拟测试评估 ChatGPT 和 GPT-4 中的金融推理技能时,研究了各种提示范式。

第一种是 ZS(zero-shot)提示。这是在输入中不提供正确示例的情况下评估模型的内在推理能力。

第二种是 FS(Few Shot)提示。它提供了一个模型预期行为的先行示例,有利于获取新知识,帮助解题。

  • 从一个测试级别(2 分、4 分、6 分)内的所有试题集中随机抽样
  • 从每个测试级别的每个题目中抽取一道试题(10 分)

最后一种方法旨在确保模型能够识别每个考试级别中每个题目的不同属性;由于 GPT-4 上下文窗口和二级项目集(三选一问题)长度的限制,二级模拟中的 6 和 10 题将根据 GPT-4 S 提示进行评估。S 提示进行评估。

第三种是 CoT 提示。在每个测试等级中,输入问题都是通过提示模型逐步思考并显示计算过程来进行评估的。这样做的另一个好处是可以分析模型的 "问题解决过程",并找出出错的地方和原因。

模型使用 OpenAI 的 ChatCompletion API(gpt-3.5-turbo 和 gpt-4 模型)实现,温度参数设置为零,以消除模型产品中的随机性。评估指标包括比较每个既定答案集和每个收集的 CFA 模拟测试的预测结果,以衡量大规模语言模型的性能。在整个实验中,"准确度 "被用作评估指标。

实验结果

如前所述,在本文中,大型语言模型(LLM)参加了金融分析师资格考试(CFA)的模拟考试。下表显示了 ChatGPT 和 GPT-4 的一级准确率。

下表还显示了 ChatGPT 和 GPT-4 二级精度。

上述两表显示,ChatGPT 和 GPT-4 在二级考试中面临的困难比一级考试更大。这种差异可归因于考试形式和内容的复杂性。

二级测试的平均长度约为一级提示的 10 倍。这种长度的增加会导致信息的稀释,使模型难以抓住问题的核心。特别是,二级试题包含更多反映现实生活情况的详细案例研究,这与更一般的试题相比,增加了信息处理的负担。

第二级还包括更专业、更复杂的问题,每套题目都深入探讨一个特定的金融主题。这与一级的宽泛题型形成鲜明对比。

此外,第二级有更多需要计算的问题和基于表格的问题。大规模语言模型的数字和表格处理的固有局限性可能是导致该级别准确率较低的原因。

上述两个表格还显示,在几乎所有实验中,GPT-4 的表现都优于 ChatGPT,但在某些金融主题上,两个模型都很吃力。

在一级考试中,两种模式都表现出色,尤其是在衍生工具(金融衍生工具)、另类投资、公司发行证券、股票投资和道德规范等题目中。在衍生工具和道德规范方面,可以理解为相对容易,因为几乎不需要理解准确答案所需的计算和表格。此外,在这些题目中,期权和套利等流行的金融概念被明确列入题文中,这可能降低了难度。

相比之下,这两种模型在财务报告和投资组合管理方面的表现都相对较差。ChatGPT 在计算密集型课题(如定量方法论)方面尤其吃力。这些问题更注重案例、应用和计算,并包含 CFA 特定内容,这可能会对成绩产生负面影响。

在第二级中,这两个模型在衍生工具、公司发行证券和股票投资方面的表现依然良好,而在财务报告方面则继续表现不佳。有趣的是,两个模型在第二级道德规范中的准确率都很低。这可能是由于第二级问题比第一级问题更详细、更具情境性,而第一级问题尤其具有挑战性。

还观察到,CoT(思维链)提示对 ZS(零镜头)有持续的改善,但没有达到最初预期的程度。这种效果是有限的,尤其是在 GPT-4 的二级水平上超过 FS(少量提示)时。

在 I 级,CoT 提示对 GPT-4 成绩的提高仅为 1%,而 ChatGPT 成绩实际上有所下降。这种微小的提高表明,CoT 并没有预期的那么有效。在二级中,CoT 提示对 GPT-4 的效果比 ZS 相对提高了 7%,但对 ChatGPT 的效果只提高了 1%,效果不如预期。

该文件还包含其他几项更详细的审查。

摘要

本文使用 CFA 一级和二级模拟评估了 ChatGPT 和 GPT-4 的性能,以评估大规模语言模型在金融领域的实用性。结果显示,GPT-4 在几乎所有题目和级别上的表现都优于 ChatGPT。根据使用不同提示方法时的估计通过率和自我报告分数,还得出结论,在所有测试设置下,ChatGPT 通过 CFA 一级和二级的可能性较低。另一方面,GPT-4 在使用 Few-Shot (FS) 和 Chain of Thought (CoT) 提示时,通过 CFA 一级和二级的可能性较高。

虽然 CoT 提示有助于模型更好地理解问题和信息,但它也揭示了因特定领域知识不正确或缺失、推理错误和计算错误而产生错误的风险。另一方面,将 FS 阳性实例纳入提示有助于在两个层面上都获得最高性能。

基于这些结果,预计未来的系统将利用各种工具来进一步提高性能:知识错误(CoT 中出现的主要错误)可以通过使用包含 CFA 特定信息的外部知识库进行检索-增强生成(RAG)来解决。使用包含 CFA 特定信息的外部知识库进行检索-增强生成(RAG)。通过将计算外包给函数或应用程序接口(如 Wolfram Alpha),可以避免计算错误。其余的错误,即推理和分歧,可以通过在给出答案前使用批判模型来审查和质疑思维,或通过结合 FS 和 CoT 来提供预期行为的示例来减少。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们