最新AI論文をキャッチアップ

ソーシャルメディアから企業の財務動向を読み解く!LLMを活用した市場感情分析の新手法

ソーシャルメディアから企業の財務動向を読み解く!LLMを活用した市場感情分析の新手法

Large language models

3つの要点
✔️ ソーシャルメディアの財務情報の利用可能性向上:RedditやTwitterから企業に対するユーザーの財務的期待感(楽観的、悲観的、中立的)を解析し、ソーシャルメディア上での豊富な金融市場の情報を抽出。
✔️ 大規模言語モデルの活用:GPT-3やPaLMなどの大規模言語モデルを用いて、少数の例から学習する能力を活かし、市場に対する感情分析を実現。
✔️ 課題と今後の研究の方向性: モデルの誤予測、不利な財務決定の可能性、悪意ある行動の助長のリスクに対処し、大規模言語モデルのさらなる最適化や人間との協力によるドメイン知識の注入を探求。

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis
written by Xiang DengVasilisa BashlovkinaFeng HanSimon BaumgartnerMichael Bendersky
(Submitted on 21 Dec 2022)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Social and Information Networks (cs.SI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

RedditやTwitterのようなソーシャルメディアプラットフォームは、ユーザーが企業の財務状況に対する期待感を投稿する場としても利用されており、金融市場に関する貴重な情報が得られます。これらの投稿は、企業に対する財務的期待感として、楽観的(強気)または悲観的(弱気)、あるいは中立的な意見に分類することができます。この論文は、このようなユーザーが投稿したテキストから感情を解析することで、投稿内に暗示される財務パフォーマンスの期待を自動的に抽出することが目的です。 

しかし、ソーシャルメディア上での市場に対する感情分析は、財務分野の知識とソーシャルメディアの専門用語の両方を理解する必要があるため、高品質なラベル付きデータを十分に揃えることが難しい状況にあります。実際、投稿者が自分で選んだ「強気」や「弱気」などのタグも不正確なことはよくあります。また、専門家間でも意見が分かれることがよくあります。

この課題に対処するため、大規模言語モデルの特徴である、少数の例から学ぶ能力に着目し、これを活用してソーシャルメディアのコンテンツから、市場に対する感情分析モデルを少ない人的介入で開発する方法を検討しています。

GPT-3やPaLMのような大規模言語モデルは、近年、コンテキスト内学習で非常に注目されており、何をすべきかを示すいくつかの例だけで、テキストタスクを実行し、多くのアプリケーションで、最先端の教師ありモデルと同様の性能を示しています。

この論文では、主要なソーシャルメディアプラットフォームとしてRedditを選んでいます。これは他のプラットフォーム(TwitterやStocktwits)とは異なり、市場のニュースからユーザーの投資行動に至るまで、トピックの範囲が広く、ユーザーコメントから長い「デューデリジェンス」投稿まで得られるためです。そして、大規模言語モデルのコンテキスト内学習、Chain-of-Thought(CoT)推論、繰り返し生成を組み合わせることで、安定した予測を実現しています。

大規模モデルを実運用環境で提供するには、モデルが大きすぎるため、より小さなモデルに知識を蒸留し、複数の予測を集約してスムーズな適合率-再現率曲線を得るアプローチを採用しています。投資決定という高リスクな状況を鑑みて、モデルの適用範囲は慎重に検討されていますが、弱くラベル付けされたRedditデータのみを使用して学習されたモデルは、Reddit内での挑戦的なテストデータにおいて改善を示し、他のデータセットに対しても一般化能力が高いことが確認されています。教師あり学習によるモデルと同等の性能を達成しています。

手法

この論文では、ユーザーの企業に対する財務見通しを解析することを目的としています。対象ドメインであるソーシャルメディアでは、ユーザーが株価の動きから財務パフォーマンスについて話し合いをすることがよくあります。そのため、このアプローチの一環として、株価の動向予測を目的としたドメイン適応型のプロキシタスクを大規模言語モデルのプロンプトに組み込んでいます。プロンプトは、大規模言語モデルを対象ドメインに適用させるためのタスク説明と、複数の入出-力例を示すデモンストレーションで構成されています。これらの出力は、モデルが事前学習中に見た例に類似するように言語化され、その後の処理でカテゴリーラベルに変換されます。下図はプロンプトの例です。①は、タスク説明です。②は、複数の入出-力例を示すデモンストレーションです。

しかし、予備研究では、このプロンプト設計が合理的な結果をもたらすものの、予測が不安定でプロンプトの正確な言い回しに敏感であることが判明しました。デモンストレーションの順序を変更するだけで結果が大きく変わることから、モデルがユーザーの意見を本質的に理解するのに苦労していることが明らかになりました。

この問題に対処するため、Chain-of-Thought(CoT)推論を導入しています(上図④)。CoTは、モデルに中間推論ステップを生成させることで、大規模言語モデルの複数ステップ推論能力を向上させることを目的としています。市場に対する感情分析では複数ステップ推論は必要ありませんが、CoTを使用して大規模言語モデルにユーザー投稿による財務に関する議論を要約させ、結論を出す前に関連する財務ドメイン知識を呼び起こさせることができます。ユーザーが投稿で複数、時には矛盾する議論を引用することが多いため、生成中に温度サンプリングを使用し、複数回繰り返して異なる推論パスを生成しています。これにより、モデルに異なる議論の線に焦点を当てる機会を与え、最終的に複数のラベルを持つ例を多数決することで、最終予測を得られるようにしています。

また、大規模言語モデルによるコンテキスト内学習は、オフライン評価で印象的な結果を示していますが、大規模モデルを実運用環境で提供することは非現実的です。一般的な解決策は、まず教師モデルを使用して大量の弱ラベル付きデータセットを生成し、それを用いて小さな生徒モデルを教師ありで学習することです。

大規模言語モデルが曖昧または複雑な投稿に対して不適切な弱ラベルを割り当てることがあることに注意が必要です。特に、難しい例では、大規模言語モデルが異なる推論パスを探索する際に一貫性のない予測を行うことがあります。この問題に直面した際、異なる推論パスによって割り当てられたラベル間に一貫性がない例をフィルタリングすることが考えられますが、これにより多くの有用な例を失う可能性があります。代わりに、単一の例に対する複数のラベルの間の合意率を感情の極性のソフトスコアと見なし、生徒モデルがこのスコアを回帰損失で予測するように学習させています。

実験

この論文では、市場に対する感情分析を3分類のタスクとして取り扱っています。ユーザーによる企業に関する投稿は、好意的な場合をポジティブ(強気)、否定的な場合をネガティブ(弱気)、それ以外をニュートラルと定義しています。

また、蒸留と評価のために、Redditの投稿を使用し、これらは専用のトピック分類器によって、財務関連コンテンツとしてラベル付けされています。また、株の人気度に基づいて投稿をフィルタリングし、蒸留用に20,000件、評価用には100件の投稿をランダムサンプリングしています。

評価用の投稿は、投資用語の知識とReddit使用経験を持つ社内の専門家3名によってアノテーションされています。また、FiQAベンチマークを使用し、2値分類のタスクへと変換しています。トレーニングセットを分割して、トレーニング、バリデーション、テストセットを準備しています。

この論文では、基本モデルとしてCharformer(CF)を使用し、ソーシャルメディアコンテンツで事前学習しています。比較対象として、FiQAでファインチューニングした基本モデル(CF-FiQA News/CF-FiQA Post)、PaLMのコンテキスト内学習を活用したモデル(PaLM COT x 8)、そしてFinBERT-HKUSTおよびFinBERT-ProsusAIという既存の市場感情分析モデルを使用しています。

実験結果

この論文では、RedditとFiQAデータセットを使用して、市場感情分析のためのアプローチを検証しています。Redditデータセットはその長い投稿と多様なユーザー意見によりFiQAよりも難易度が高いことが確認されました。わずか6つの例示を用いたPaLMモデルは、全データセットに渡って優れた性能を示しています。特に、弱ラベル付けされたRedditデータ上で微調整を行った生徒モデルは、大規模言語モデルからの知識を効率的に転移させ、Redditデータセット上で既存の教師ありのベースラインを超える成果を達成しています。さらに、Reddit投稿のみで微調整されたにも関わらず、FiQAデータセットにも適切に適応することができています。これらの結果は、市場感情分析における大規模言語モデルの活用可能性を示唆しています。わずかな例示だけで、既存の最先端モデルと同等かそれ以上の性能を持つ小規模な生徒モデルを構築できることが証明されています。

また、コンテキスト内学習におけるChain-of-Thought(CoT)推論の使用と、生成の繰り返しは非常に重要であることが下図で示されています。

同一の例示を使用しながらも、その順序を変えることで得られる異なるプロンプトの影響は大きく、プロンプトの設計に対する敏感さが明らかになりました。また、CoTを適用したPaLMを用いて、投稿の主要論点をTL;DR形式で要約すると、パフォーマンスの大幅な向上が見られました。複数の推論パスの生成と予測の集約は、モデルがユーザー意見の異なる側面を探究することを可能にし、さらなる性能向上に寄与しています。モデルサイズがCoT推論の有効性に影響を与えることも確認され、540Bモデルはその優れた生成能力により、より有益な中間的思考ステップを生み出すことが可能です。

さらに、最終モデル(CF - Distilled PaLM)について、Redditのテストセットでエラー分析を行なっています。下表に示されたConfusion Matrixから、エラーの大部分はニュートラルと他の2つのラベル間で発生していることがわかります(これはポジティブ/ネガティブのエラーよりも重大なものではありません)。

入力が矛盾する主張を含んでいたり、高度な投資行動について議論したりする場合、モデルが苦労していることがわかります。このような複雑な投稿をより適切に扱い、関連する財務ドメイン知識を組み込むことは、将来の研究課題となるかもしれません。

まとめ

この論文では、ソーシャルメディアの豊富な財務情報をよりアクセスしやすくするモデルを開発しています。人による限られたアノテーションデータを使用して、既存の教師ありモデルと同等のパフォーマンスを達成し、他のデータセットに対しても優れた一般化性能を示しています。しかしながら、モデルの適用には、責任を伴います。モデルが30%以上の確率で市場感情を誤って予測する可能性があること、またソーシャルメディアの投稿が不利な財務決定を引き起こす可能性があることがあるためです。さらに、ソーシャルメディアから財務情報を収集することは、市場操作のような悪意ある行動に影響を受けるリスクがあります。この点は、実用にあたって、今後の検討項目となるでしょう。

また、今後の研究の方向性としては、人間の評価者がデータに単にラベルを付けるのではなく、大規模言語モデルがタスクを実行するためのドメイン知識を注入したプロンプトの設計に「協力」すること、または自動プロンプトチューニングが人間が設計したプロンプトをさらに最適化する方法が考えられます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする