【FinBen】金融領域におけるLLMの能力と限界を評価するベンチマーク

Large language models 2024年03月28日

3つの要点
✔️ 新しいベンチマーク「FinBen」の導入：金融特有の課題に対応することを目的とした、初のオープンソースの包括的評価ベンチマークを構築し、金融領域における大規模言語モデルの能力と限界を評価。
✔️ 主要な発見：FinBenでの評価から、GPT-4が多くのタスクで優れた性能を示す一方で、特定のタスクでは他のモデルが優れていることが明らかになる。大規模言語モデルが基本的なタスクでは卓越しているものの、より高度な認知能力を要求されるタスクでh改善の余地があることを示す。
✔️ 将来の研究への影響：大規模言語モデルが金融取引の意思決定にどのように貢献できるかという点において、貴重な洞察を提供。金融ドメインにおける大規模言語モデルの適用と発展のための新たな方向性を示唆。

The FinBen: An Holistic Financial Benchmark for Large Language Models
written by Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
(Submitted on 20 Feb 2024)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、大規模言語モデルが自然言語処理の状況を一変しています。ChatGPTやGPT-4のようなモデルは、数学から医学、法律、金融に至るまで、様々な分野でその能力を発揮しています。しかしながら、これらの進歩にも関わらず、金融分野におけるこれらのモデルの能力と限界については、依然として多くの課題が残っています。特に、金融テキスト分析や予測タスクにおけるその潜在能力が注目されている一方で、金融分野の複雑さと特有の要求に対するモデルの適応性については、広範な評価が不足しています。

既存の金融分野の評価ベンチマークは、言語理解能力に重点を置いていますが、金融知識の理解や現実の金融タスク解決能力を十分に評価できていません。また、新たにリリースされた一般ドメイン向けベンチマークも金融特有の課題には対応しておらず、金融ドメインに特化した体系的な評価ベンチマークの必要性を浮き彫りにしています。

このニーズに応えるために、この論文では「FinBen」という新しいベンチマークを提案しています。FinBenは、金融ドメインでの大規模言語モデルの能力を網羅的に評価することを目的とした、最初のオープンソースの包括的評価ベンチマークです。23の金融タスクと35のデータセットを含むこのベンチマークは、言語理解から数値推論、テキスト生成まで、幅広いスキルをテストすることができます。これにより、金融における大規模言語モデルの真の能力と限界を明らかにし、金融分野でのその応用を向上させるための洞察を提供することができます。

FinBenでの評価により、GPT-4が多くのタスクで優れた性能を示す一方で、特定の生成や予測タスクでは他のモデルがその能力を凌駕すること、また最先端の大規模言語モデルが基本的なタスクでは卓越しているものの、より高度なタスクでは改善の余地があることが明らかになりました。これらの発見は、金融ドメインにおける大規模言語モデルの適用と発展に貴重な洞察を提供しています。

FinBen

ここでは「FinBen」を紹介します。金融分野における大規模言語モデルの能力を多次元的に評価するために設計されています。このフレームワークは、カテル・ホーン・キャロル（CHC）理論に基づき、認知能力の広がりを3つの主要なスペクトラムに分けて捉えています。これらは、基本的な量的推論から抽出、さらには数値理解に至るまでのタスクを含みんでいます。生成や予測タスクを通じてより高度な認知プロセスを評価し、最終的には現在最も進んだ金融課題に対する大規模言語モデルの戦略的意思決定能力を測定しています。このようにして、大規模言語モデルの金融分析能力を幅広い認知要求を通じて深く掘り下げています。具体的なタスク、使用データセット、そしてそれらの統計情報および評価指標は、下図と下表に示されています。

下図は、FinBenの評価データセットです。

また、下表はFinBen に含まれるタスク、データセット、データ統計、および評価指標です。

まず、スペクトラムI：基本タスクでは、16のタスクを含む20のデータセットを通じて、大規模言語モデルの量的推論、抽出、数値理解の能力を評価しています。量的推論には、金融テキストからの情報抽出や感情分析など、8つの異なる分類タスクが含まれます。たとえば、感情分析タスクではFinancial Phrase BankやFiQA-SAデータセットを使用し、金融テキストからの感情情報を抽出します。抽出タスクでは、金融文書から特定の情報を正確に取得する能力を評価し、理解タスクでは、複雑な数値データや統計を解釈する大規模言語モデルの能力を測定します。各タスクの評価は、精度とF1スコアを使用して行われます。これらのタスクは、金融言語モデルが実際の金融環境で遭遇する可能性のある様々な課題にどの程度効果的に対応できるかを示しています。

スペクトラムIIでは、生成（結晶性知能）と予測（流動性知能）の能力を深く掘り下げるために設計された、6つのタスクと14のデータセットから構成されています。生成タスクでは、モデルが一貫性のある、情報豊富で、関連性の高いテキスト出力をどれだけ効果的に生成できるかを評価しています。特に、収益コールの要約にECTSUMデータセット、金融ニュース記事の要約にEDTSUMデータセットを用いています。評価には、ROUGEスコア、BERTScore、BARTスコアを用いて、生成された要約の品質を定量的に測定しています。予測タスクは、モデルが市場や投資家の未来の行動をどれだけ正確に予測できるかをテストしています。株価の動向予測、クレジットスコアリング、詐欺検出、財務危機の識別、請求分析など、多岐にわたる5つの予測タスクを含み、F1スコアとマシューズ相関係数で評価されています。

スペクトラムIII：一般知能では、取引タスクとして、大規模言語モデルの究極の挑戦として設定され、モデルがさまざまな情報を統合して取引戦略を策定・実装する能力を評価しています。これは、金融分析の認知能力における最高峰に位置づけられています。SOTAの金融LLMエージェント、FinMemを使用して、私たちが独自に収集した7つの主要株式のデータセットに基づき、実世界の取引環境を模倣しながらモデルを評価しています。パフォーマンスは、累積リターン、シャープレシオ、日次・年間ボラティリティ、最大ドローダウンを用いて測定され、モデルの利益性、リスク管理、意思決定能力を総合的に評価しています。

これらの高度なデータセットとベンチマークを通じて、大規模言語モデルの金融分析における認知能力の新たな地平を探求し、将来の技術発展への道を開くことを目指しています。

実験結果

下表から、基本タスクにおいて、GPT-4が最高の平均パフォーマンスを示し、その後、ChatGPT、Geminiが続くことがわかります。

全てのオープンソースの大規模言語モデルの中で、金融系の大規模言語モデルでは、FinMA-7Bは、FPBなどのいくつかの分類タスクで優れたパフォーマンスを示し、GPT-4のようなより大きなモデルをも上回っています。これは、学習データセットにおける専用のインストラクションチューニングによるものです。

一般の大規模言語モデルでは、LLaMA2 70Bが大きなモデルサイズのために平均性能でリードしています。中国語向けに特化したモデルでは、ChatGLM2-6BがInternLM 7Bを平均性能で上回り、金融タスクの処理におけるその効果を示しています。しかし、中国の金融データでファインチューニングされたCFGPT sft-7B-Fullは、MultiFinなどのいくつかのデータセットにおいて基本モデルのInternLM 7Bと比較して限定的な改善を示し、性能の低下も示しています。この傾向は言語ベースの不一致を示唆しており、中国語のデータでのファインチューニングが英語のタスクの性能に悪影響を与える可能性があることを強調し、モデル学習における言語間適応の複雑さを浮き彫りにしています。

特に、Headlinesのような量的データセットでは、GeminiやFinMA-7Bを含む他の金融向けチューニングされた大規模言語モデルがGPT-4と同等かそれ以上の性能を発揮しています。しかし、FinQAやConvFinQAのような理解タスクのデータセットを扱う際には、GPT-4とChatGPTが他のモデルを大きく上回り、GeminiやLLaMA2-70Bのようなモデルの数値推論能力の限界を浮き彫りにしています。FinRED、CD、FNXL、FSRLなど、複雑な情報抽出と数値ラベリングを要求する抽出データセットでは、GPT-4を含む全てのモデルが課題に直面しており、これらの分野でのさらなる強化が必要であることを示しています。

また、テキスト生成タスクでは、GeminiがEDTSUMで先頭に立ち、矛盾のない要約を生成する能力を示しています。それにもかかわらず、全てのモデルは、文の正確なラベルシーケンスを生成することを要求する抽出的要約において課題に直面しています。予測タスクでは、Geminiがほとんどのデータセットで自己を区別しますが、オーストラリアのクレジットスコアリングデータセットではGPT-4が優れたパフォーマンスを示しています。

さらに、株式取引という高度な一般知能を要求する複雑なタスクにおける大規模言語モデルの性能を比較分析しています。この分析から、すべての大規模言語モデルが従来のバイ・アンド・ホールド戦略を上回る卓越した性能を発揮し、投資家にとってより有益な取引決定を導く能力を持っていることが明らかになりました。

中でもGPT-4は、リスクに対する利益の最適化において特に優れており、1を超えるシャープ・レシオ（SR）で最高の成績を達成しました。この結果は、GPT-4が投資家にとってより低リスクで効果的な損失制限の方法を提供し、安全な投資ルートを実現していることを示しています。

対照的に、ChatGPTは金融意思決定能力において限界があることが示され、性能指標が著しく低い結果となりました。一方、GeminiはGPT-4に次ぐ性能を示し、低リスクと低変動性を保ちながらも、高いリターンを維持しています。オープンソースのLLaMA-70Bは、リスク管理と収益性のバランスをとる中で最も利益が少ない結果となりましたが、変動性は低いという特徴があります。

また、70億未満のパラメータを持つ小規模モデルは、株式取引指示に一貫性を持って従うことが難しく、理解力や抽出能力、コンテキストを理解する窓が限定されているため、複雑な金融推論と意思決定を要求するタスクにおいて明らかな課題があることが指摘されています。

この論文では、大規模言語モデルが金融領域で一般知能を体現し、実世界の金融課題に対して高度な認知スキルを適用する能力を持っていることが示されました。これは金融分析と意思決定における新たな時代の到来を予告し、大規模言語モデルが金融市場の複雑さを理解しナビゲートする顕著な潜在能力を持つこと、そして高度な一般知能を要求するタスクへのさらなる開発と応用に向けた有望な進路を示唆しています。

オープンソースの大規模言語モデルの中では、LLaMA2 70Bがテキスト要約で際立っており、LLaMA2-7B-chatは予測タスクで優れています。BigData22やACL18のようなデータセットでのインストラクションチューニングにもかかわらず、FinMA 7BはFalcon 7Bなどよりも予測パフォーマンスで遅れをとっており、より効果的な改善戦略が必要であることを強調しています。

CFGPT sft-7B-Fullは、その基礎となるモデルであるInternLM 7Bと比較して一貫して性能が低下しています。予測に関しては、全ての大規模言語モデルが期待される結果を満たさず、従来の方法よりも遅れをとっていることを認識することが重要です。この一貫した観察は、既存の研究（Feng et al., 2023; Xie et al., 2023b）と一致し、従来の方法と同じくらい効果的に高度な認知タスクに対処する大規模言語モデルの能力に顕著な欠如があることを強調しています。

この分析からは、GPT-4やGeminiなどの業界リーダーを含む大規模言語モデルにおける、特に高度な認知スキルを要求するテキスト生成や予測タスクにおける大きな改善の可能性が明らかになります。

結論として、GPT-4のようなSOTAの大規模言語モデルは量的タスク全般にわたって強力なパフォーマンスを示しています。しかし、数値推論と複雑な情報抽出タスクにおいては明確なギャップが存在し、さらなる開発の必要性を指摘しています。インストラクションチューニングはパフォーマンスを大幅に向上させることが示されており、特化した金融タスクのモデル能力を向上させるための価値あるアプローチを示唆しています。これらの結果は、言語間モデルチューニングの複雑さと、多様な金融タスクにおける大規模言語モデルの効果を向上させるための慎重な言語考慮の重要性を強調しています。

まとめ

この論文で紹介された「FinBen」は、金融領域に特化した大規模言語モデルの能力を測定するための画期的なベンチマークです。23の異なるタスクにまたがる35のデータセットを含み、これまでの金融ベンチマークを大きく超える幅広いタスク―量化、抽出、理解、生成、予測を評価しています。特に注目すべきは、直接取引を評価するためのエージェントベースフレームワークの導入です。

15の大規模言語モデルの徹底的な分析を通じて、GPT-4が量化、抽出、理解、取引タスクで突出した成績を示し、一方でGeminiが生成と予測タスクで最も優れていることが明らかになりました。この結果は、大規模言語モデルが基本的なタスクにおいては高い能力を持つものの、より高度な認知や一般知能を要するタスクではまだ限界があることを示しています。

この論文は、大規模言語モデルが金融取引の意思決定に直接貢献できる可能性を浮き彫りにし、この領域における今後の研究の新たな方向性を示唆しています。将来的には、FinBenをさらに拡張し、多様な言語やより広範な金融取引タスクを含めることで、金融における大規模言語モデルの可能性をさらに探求し、この分野を進歩させることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。