![[FinBen]评估金融领域法律硕士能力和局限性的基准](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2024/finben.png)
[FinBen]评估金融领域法律硕士能力和局限性的基准
三个要点
✔️ 介绍新基准 FinBen:首个开源综合评估基准,旨在应对金融领域的特定挑战,评估金融领域大规模语言模型的能力和局限性。
✔️ 主要发现:在 FinBen 上进行的评估显示,GPT-4 在许多任务中表现良好,而其他模型在某些任务中表现更佳。它表明,虽然大规模语言模型在基本任务中表现出色,但在需要更高级认知技能的任务中仍有改进空间。
✔️ 对未来研究的启示:为大规模语言模型如何有助于金融交易决策提供了有价值的见解。为大规模语言模型在金融领域的应用和发展提出了新的方向。
The FinBen: An Holistic Financial Benchmark for Large Language Models
written by Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
(Submitted on 20 Feb 2024)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,大规模语言模型改变了自然语言处理领域的格局,ChatGPT 和 GPT-4 等模型展示了它们在数学、医学、法律和金融等领域的能力。然而,尽管取得了这些进步,但这些模型在金融领域的能力和局限性仍有许多工作要做。特别是,虽然这些模型在金融文本分析和预测任务中的潜力已得到强调,但对于这些模型是否能适应金融行业的复杂性和特定需求,还缺乏广泛的评估。
现有的金融领域评估基准侧重于语言理解能力,但不能充分评估对金融知识的理解或解决实际金融任务的能力。新发布的通用领域基准也没有涉及金融方面的具体问题,这凸显了对金融领域专用的系统性评估基准的需求。
为了满足这一需求,本文提出了一个名为 FinBen 的新基准,它是首个开源综合评估基准,旨在全面评估金融领域大规模语言模型的能力。该基准可以测试从语言理解到数字推理和文本生成的各种技能。它可以揭示大规模语言模型在金融领域的真正能力和局限性,并为改进其在金融领域的应用提供见解。
在 FinBen 上进行的评估显示,虽然 GPT-4 在许多任务中表现出色,但在某些生成和预测任务中,其他模型的表现要优于它。这些发现在下面的章节中也很明显。这些发现为大规模语言模型在金融领域的应用和发展提供了宝贵的启示。
芬本
本节介绍 FinBen。它旨在以多维方式评估大规模语言模型在金融领域的能力。该框架以 Cattell-Horn-Carroll (CHC) 理论为基础,捕捉了认知能力在三个主要方面的分布。其中包括从基本定量推理到提取甚至数字理解的任务。通过生成和预测任务对更高级的认知过程进行评估,最终衡量大规模语言模型对当今最先进金融任务的战略决策能力。这样,大规模语言模型的金融分析能力就可以通过广泛的认知需求得到深入探讨。具体任务、所使用的数据集及其统计数据和指标见下图和表格。
下图显示了 FinBen 评估数据集。
FinBen 还包括下表中的任务、数据集、数据统计和评估指标。
首先,Spectrum I:基本任务通过包含 16 个任务的 20 个数据集,评估对大规模语言模型进行定量推理、提取和数字理解的能力。定量推理包括 8 个不同的分类任务,如从金融文本中提取信息和情感分析。例如,情感分析任务使用金融短语库和 FiQA-SA 数据集从金融文本中提取情感信息。提取任务评估的是从金融文档中准确检索特定信息的能力,而理解任务则衡量大规模语言模型解释复杂数字数据和统计数据的能力。每项任务都使用准确率和 F1 分数进行评估。这些任务展示了金融语言模型如何有效地应对实际金融环境中可能遇到的一系列挑战。
Spectrum II 包括六项任务和 14 个数据集,旨在深入探讨生成能力(晶体智能)和预测能力(流体智能)。生成任务评估模型如何有效地生成一致、信息丰富和相关的文本输出。其中,ECTSUM 数据集用于总结财报电话会议,EDTSUM 数据集用于总结财经新闻文章。评估使用 ROUGE 分数、BERTScore 分数和 BART 分数来定量衡量生成摘要的质量。预测任务测试模型预测市场和投资者未来行为的准确度。它包括五项预测任务,从预测股价走势、信用评分、欺诈检测、金融危机识别到索赔分析,并使用 F1 分数和马修斯相关系数进行评估。
频谱三:通用智能,作为一项交易任务,被设定为大规模语言模型的终极挑战,评估模型整合不同类型信息以制定和实施交易策略的能力。这将其置于金融分析认知能力的顶峰:使用 SOTA 的金融 LLM 代理 FinMem,我们根据自己的七种主要股票数据集对该模型进行评估,模拟真实世界的交易环境。我们使用累计回报率、夏普比率、日波动率和年波动率以及最大缩水率来衡量性能,以全面评估模型的盈利能力、风险管理能力和决策能力。
通过这些先进的数据集和基准,我们旨在探索大规模语言模型财务分析认知能力的新视野,为未来的技术发展铺平道路。
实验结果
下表显示,GPT-4 在基本任务中的平均性能最好,其次是 ChatGPT 和 Gemini。
在所有开源大规模语言模型中,FinMA-7B 在某些分类任务(如 FPB)上表现较好,在金融大规模语言模型方面甚至优于 GPT-4 等大型模型。这是由于在训练数据集中进行了专门的指令调整。
在一般大型语言模型中,由于模型规模较大,LLaMA2 70B 的平均性能遥遥领先。在中文专用模型中,ChatGLM2-6B 的平均性能优于 InternLM 7B,这证明了它在处理金融任务方面的有效性。然而,与基本模型 InternLM 7B 相比,根据中文金融数据微调的 CFGPT sft-7B-Full 在某些数据集(如 MultiFin)上的改进有限,而且性能也有所下降。这种趋势表明存在基于语言的不匹配,突出表明对中文数据进行微调可能会对英文任务的性能产生负面影响,同时也突出表明了模型学习中跨语言适应的复杂性。
特别是在诸如 "头条新闻 "等定量数据集上,包括 Gemini 和 FinMA-7B 在内的其他金融调谐大规模语言模型的表现与 GPT-4 不相上下,甚至更好。然而,在处理 FinQA 和 ConvFinQA 等理解任务数据集时,GPT-4 和 ChatGPT 的表现明显优于其他模型,这凸显了 Gemini 和 LLaMA2-70B 等模型在数字推理能力方面的局限性、FSRL,包括 GPT-4 在内的所有模型都面临着提取数据集的挑战,这些数据集需要复杂的信息提取和数字标注,这表明需要在这些方面进一步加强。
在文本生成任务中,Gemini 在 EDTSUM 中处于领先地位,展示了其生成一致摘要的能力。不过,所有模型在提取摘要方面都面临挑战,这要求它们生成准确的句子标签序列。在预测任务中,Gemini 在大多数数据集上表现突出,而 GPT-4 则在澳大利亚信用评分数据集上表现出色。
此外,我们还对大规模语言模型在复杂的股票交易任务中的表现进行了比较分析,因为股票交易需要高水平的通用智能。分析结果表明,所有大规模语言模型的表现都优于传统的买入并持有策略,能够为投资者做出更有利的交易决策。
其中,GPT-4 在优化相对于风险的回报方面表现尤为突出,取得了超过 1 的最佳夏普比率(SR)。这一结果表明,GPT-4 为投资者提供了更安全的投资途径,提供了风险更低、更有效的限制损失的方法。
相比之下,ChatGPT 在财务决策能力方面表现出局限性,导致绩效指标明显偏低。另一方面,Gemini 的表现仅次于 GPT-4,在保持低风险和低波动性的同时,还维持了高收益。开放源码 LLaMA-70B 在平衡风险管理和盈利能力方面利润最低,但波动率低。
研究还注意到,参数少于 70 亿的小规模模型很难始终遵循股票交易指令,其理解能力、提取能力和上下文理解窗口有限,这对需要复杂金融推理和决策的任务构成了明显的挑战。
本文表明,大规模语言模型体现了金融领域的通用智能,有能力将高级认知技能应用于现实世界的金融任务。这预示着金融分析和决策进入了一个新时代,并表明大规模语言模型在理解和驾驭复杂的金融市场方面具有非凡的潜力,同时也为进一步开发和应用于需要高级通用智能的任务提供了一条充满希望的道路。
在大型开源语言模型中,LLaMA2 70B 在文本摘要方面表现突出,LLaMA2-7B-chat 在预测任务中表现出色;尽管在 BigData22 和 ACL18 等数据集上进行了指令调整,FinMA 7B 在预测性能方面仍落后于 Falcon 7B 等模型。在预测性能方面落后于 Falcon 7B 和其他语言,这说明需要更有效的改进策略。
CFGPT sft-7B-Full 的表现一直不如其基础模型 InternLM 7B。重要的是要认识到,所有大规模语言模型在预测方面都没有达到预期结果,并且落后于传统方法。这一观察结果与现有研究(Feng 等人,2023;Xie 等人,2023b)一致,并凸显出大规模语言模型在处理高级认知任务方面明显缺乏像传统方法那样有效的能力。
分析表明,大规模语言模型(包括 GPT-4 和 Gemini 等行业领导者)具有巨大的改进潜力,尤其是在需要较高认知技能的文本生成和预测任务方面。
总之,SOTA 的大规模语言模型(如 GPT-4)在定量任务中表现出很强的性能。但是,在数字推理和复杂信息提取任务方面还存在明显差距,这表明需要进一步开发。教学调整已被证明能显著提高性能,这表明提高模型执行专业金融任务的能力是一种有价值的方法。这些结果凸显了语言间模型调整的复杂性,以及仔细考虑语言问题以提高大规模语言模型在各种金融任务中的有效性的重要性。
摘要
本文中介绍的 "FinBen "是衡量金融领域专用大规模语言模型能力的开创性基准,包含 35 个数据集,涉及 23 种不同任务--与以往的金融基准相比,任务量化范围更广、这些任务包括提取、理解、生成和预测。特别值得注意的是,它引入了一个基于代理的框架来评估直接交易。
通过对 15 个大规模语言模型的深入分析,发现 GPT-4 在量化、提取、理解和交易任务中表现突出,而 Gemini 在生成和预测任务中表现最佳。这些结果表明,虽然大规模语言模型在基本任务中能力很强,但在需要较高认知水平和一般智能的任务中仍然受到限制。
本文强调了大规模语言模型直接促进金融交易决策的潜力,并提出了该领域未来研究的新方向。未来,我们希望 FinBen 能够进一步扩展到多种语言和更广泛的金融交易任务,以进一步探索大规模语言模型在金融领域的潜力,推动该领域的发展。
与本文相关的类别