ChatGPTとGPT-4がCFA試験に挑戦！金融分野における大規模言語モデルの応用可能性を検証

Large language models 2024年03月14日

3つの要点
✔️ 大規模言語モデルの金融推論能力評価： ChatGPTとGPT-4を用いて、金融分野の専門知識が要求されるCFA試験の模擬問題を解くことで、金融推論問題に対する有用性と限界を評価した。
✔️ 試験性能の詳細分析： CFA試験のレベルIとレベルIIの模擬問題を通じて、大規模言語モデルが特定の金融トピック（デリバティブやエクイティ投資など）では良好な性能を示す一方で、ファイナンシャル・レポーティングやポートフォリオ管理などの他のトピックでは苦戦していることを明らかにした。
✔️ 金融専門知識と問題解決能力の向上への提案：金融専門知識の数値・表処理能力の改善など、大規模言語モデルの金融への応用性を高めるための戦略と改善点を提案した。

Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams
written by Ethan Callanan, Amarachi Mbakwe, Antony Papadimitriou, Yulong Pei, Mathieu Sibue, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
(Submitted on 12 Oct 2023)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); General Finance (q-fin.GN)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語処理の領域は、大規模言語モデルの登場によって大きく変貌しました。特に、OpenAIのChatGPTやGPT-4、LLaMA、PaLMといったモデルは、わかりやすい対話スタイルで、広く注目を集めています。これらのモデルは、テキストの要約からコード生成、質問応答に至るまで、多岐にわたるタスクで優れた能力を発揮しています。金融分野でも、顧客サービスの向上やセンチメント分析など、その利用が進んでいます。しかし、金融に特化した課題に対しては、一般的な自然言語処理モデルではまだ改善の余地があります。

この論文では、実際の金融推論問題における大規模言語モデルの有用性を探るため、チャータード・ファイナンシャル・アナリスト（CFA）プログラムの模擬試験問題を用いて評価を行っています。CFA試験は、金融専門知識の詳細かつ実践的な知識を問う試験として知られ、大規模言語モデルが複雑な金融推論問題に対して、どの程度理解し解決できるかを評価するのに最適なケーススタディと考えられます。この論文では、CFA試験のレベルIとレベルIIにおける性能をどう推定するかを詳細に分析しています。

研究の結果、ChatGPTとGPT-4は金融推論問題において一定の性能を示しましたが、特定の問題では限界も明らかになりました。

また、金融分野での大規模言語モデルの応用性を高めるための戦略と改善点についても考察しています。これには、金融専門知識の組み込みや問題解決能力の向上など、研究開発の新たな方向性を示唆する内容が含まれています。

この研究は、金融推論問題に対するChatGPTとGPT-4の能力を包括的に評価する初めての試みであり、大規模言語モデルの金融への適用性を高めるための基盤を築くことを目指しています。

データセット

今回のデータセットで利用するCFAは、金融の基礎知識から資産の評価、ポートフォリオ管理、財富計画に至るまで、広範囲にわたる3つのレベルから構成される試験です。このプログラムは、財務、会計、経済学、ビジネス分野の知識を持つ人々が金融業界でのキャリアを目指すために受験し、CFAを取得することは、投資管理やリスク管理などの専門職で活躍するための重要な資格となります。

また、CFA試験の各問題は、レベルに関係なく、倫理、定量的方法、経済学、財務諸表分析、企業発行体、ポートフォリオ管理、エクイティ投資、固定収入、デリバティブ、代替投資の10の異なる財務トピックのいずれかに関連付けられています。レベルIは、合計180の独立したMultiple Choice(3択問題)で構成されます。レベルIIは、22のItem Set(3択問題)で構成され、各Setには小課題（ケース記述と証拠）が含まれます。レベルIIIは、Essay (論述・短答式)とItem Set (3択問題)の混合で構成されます。

レベル	試験形式
Ⅰ	Multiple Choice(3択問題)
Ⅱ	Item Set(3択問題)
Ⅲ	50% Essay (論述・短答式) 50% Item Set (3択問題)

ただし、CFA試験の公式問題集は公開されていないため、研究やモデルのベンチマークには模擬試験を利用しています。特に、レベルIIIの問題には平文での回答が求められるため、今回はレベルIとIIの問題に焦点を当てています。レベルIの模擬試験5回分、レベルIIの模擬試験2回分を収集し、CFA協会が公開する例題を参考にしています。このデータセットでは、各財務トピックが適切な比率で表現されており、レベルごとの問題構成やトピックの重要性が明確に示されています。

下図は、レベルIとIIの問題のサンプルです。

また、下表はレベルIとIIの問題の統計データです。

実験方法

CFAの模擬試験を使用してChatGPTとGPT-4の金融推論能力を評価するため際に、様々なプロンプトパラダイムを検討しています。

1つ目は、ZS（ゼロショット）プロンプティングです。これは、入力に正しい例を提供せずに、モデルの固有の推論能力を評価します。

2つ目は、FS（フューショット）プロンプティングです。モデルに期待される振る舞いの先行例を提供し、質問を解決するのに役立つ新しい知識の獲得を促します。FS例を選択するために次の2つの異なるアプローチでテストしています。

試験レベル内の全質問セットからランダムにサンプリング（2S、4S、6S）
試験レベルの各トピックから1つの質問をサンプリング（10S）

この最後のアプローチは、モデルが各試験レベル内の各トピックの異なる属性を識別できるようにすることを目的としています。GPT-4のコンテキストウィンドウの制限とレベルIIのItem Set(3択問題)の長さのため、GPT-4に対してレベルIIの模擬試験で6Sと10Sのプロンプティングは評価されています。

3つ目は、CoTプロンプティングです。各試験レベルについて、入力問題をステップ・バイ・ステップで考え、計算の過程を示すようにモデルに促すことで評価しています。これには、モデルの「問題解決プロセス」を分析し、どこで、なぜ間違えたかを特定するという利点もあります。

モデルには、OpenAIのChatCompletion API（gpt-3.5-turboとgpt-4モデル）を使用して実施され、モデルの生成物にランダム性を排除するために温度パラメータをゼロに設定しています。評価指標には、大規模言語モデルのパフォーマンスを測定するために、収集したCFA模擬試験の各確立された解答セットとその予測を比較しています。この実験を通じて、Accuracyを評価指標として使用しています。

実験結果

これまで述べているように、この論文では、大規模言語モデル（LLM）が金融分析の資格試験であるCFAの模擬試験に挑戦しています。下表は、レベルIに対するChatGPTとGPT-4のAccuracyです。

また、下表は、レベルIIに対するChatGPTとGPT-4のAccuracyです。

以上の2つの表から、ChatGPTとGPT-4は、レベルIIの試験では、レベルIよりも一層の難しさに直面することがわかります。この違いは、試験の形式と内容の複雑さに起因すると考えられます。

レベルIIの試験は、レベルIに比べてプロンプトの長さが平均で約10倍にも及びます。この長さの増加は、情報の希釈を招き、モデルが質問の核心に迫ることを難しくしています。特に、レベルIIでは、現実に即した状況を反映した詳細なケーススタディが出題され、これが一般的な質問よりも情報処理の負担を増加させています。

また、レベルIIでは、各項目セットが特定の金融トピックに深く焦点を当てており、より専門的で複雑な問題が含まれています。これは、レベルIの広範囲にわたる質問形式とは対照的です。

さらに、レベルIIでは計算を必要とする質問や表を用いた問題が多くなっています。大規模言語モデルが本来持つ数値処理や表処理の限界が、このレベルでの低い精度の一因となっている可能性があります。

また、前述の2つの表から、ほぼ全ての実験でGPT-4がChatGPTを上回る性能を示していることがわかりますが、両モデルともに特定の金融トピックで苦戦しています。

レベルIでは、両モデルが特にデリバティブ（金融派生商品）、オルタナティブ投資、企業発行証券、エクイティ投資、そして倫理のトピックで良好な性能を示しています。デリバティブと倫理においては、正確な回答に必要な計算や表の理解が少ないため、比較的容易であったと解釈できます。また、これらのトピックでは、オプションやアービトラージなどの人気がある金融の概念が明示的に問題文に含まれており、難易度を下げていると考えられます。

一方、ファイナンシャル・レポーティングとポートフォリオ管理では、両モデルともに相対的に低い性能を示しています。特にChatGPTは、定量的方法論などの計算量が多いトピックで苦戦しています。これらの問題は、よりケースベースで応用的、計算的、そしてCFA固有の内容を含んでおり、性能に悪影響を与えた可能性があります。

レベルIIでは、デリバティブ、企業発行証券、エクイティ投資において両モデルが引き続き良好な性能を見せる一方で、ファイナンシャル・レポーティングでは依然として苦戦しています。興味深いことに、レベルIIの倫理では、両モデルともに低い精度を示しています。これは、レベルIIの問題がレベルIと比較してより詳細で状況に応じた性質を持つため、特に難易度が高まっていることが原因と考えられます。

また、CoT（Chain of Thought）プロンプティングが、ZS（Zero-Shot）に対して一貫して改善効果を示すことも確認されましたが、当初期待されたほどの効果は見られませんでした。特にGPT-4におけるレベルIIでFS（Few-Shot）を上回る場合においても、その効果は限定的です。

レベルIでは、CoTプロンプティングによるGPT-4の性能向上はわずか1%の相対的な増加にとどまり、ChatGPTの性能は実際に低下しました。この微小な改善は、CoTが期待されるほど有効ではないことを示唆しています。レベルIIでは、CoTプロンプティングがGPT-4に対してZSよりも7%の相対的な改善をもたらしたものの、ChatGPTに対しては1%の改善に留まり、期待されるほどの効果は得られていません。

論文には、この他にもさらに詳細な検証が複数、行われています。

まとめ

この論文では、CFAのレベルIとレベルIIの模擬試験を用いて、ChatGPTとGPT-4の性能を評価し、金融分野における大規模言語モデルの有用性を評価しています。その結果、ほぼすべてのトピックとレベルで、GPT-4がChatGPTよりも優れた性能を示すことが明らかになりました。また、異なるプロンプト方法を使用した際の推定合格率と自己報告スコアを基に、ChatGPTはテストされたすべての設定下でCFAのレベルIとIIに合格する可能性が低いと結論付けられました。一方、GPT-4はFS（Few-Shot）やCoT（Chain of Thought）プロンプティングを用いることで、CFAのレベルIとIIを合格する可能性があるとされています。

CoTプロンプティングはモデルが問題と情報をより良く理解するのに役立ちましたが、間違った、または不足しているドメイン固有の知識、推論エラー、計算エラーによるエラーを引き起こすリスクも明らかになっています。一方で、FSがポジティブなインスタンスをプロンプトに組み込むことで、両レベルにおいて最も高い性能を引き出すことができています。

これらの結果を踏まえ、将来のシステムでは、様々なツールを活用することでさらなる性能向上が期待されます。CoTで発生する主なエラーである知識エラーは、CFA特有の情報を含む外部知識ベースを使用した検索拡張生成（Retrieval-Augmented Generation）で対応可能です。計算エラーは、Wolfram Alphaのような関数やAPIに計算を委託することで避けることができます。残りのエラーである推論と不一致は、批評モデルを使用して回答を出す前に思考を見直し、疑問を投げかけることや、FSとCoTを組み合わせて期待される振る舞いの例を提供することで減少させることができると考えられます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。