言語モデルは人間レベルで将来予測できるのか?
3つの要点
✔️ 競合予測プラットフォームから質問のデータを収集し、LMの予測能力を評価します。
✔️ 実験では、提案されたシステムがテストセット上でのパフォーマンスが人間の予測に近いことが示されました。
✔️ 将来的にはLMベースのシステムが競争力のある人間の予報士と同等の正確な予測を行うことが可能となる可能性があります。
Approaching Human-Level Forecasting with Language Models
written by Danny Halawi, Fred Zhang, Chen Yueh-Han, Jacob Steinhardt
(Submitted on 28 Feb 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Information Retrieval (cs.IR)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
この研究では、言語モデル(LM)が将来の出来事を予測することができるかどうかを調査します。研究では、自動的に情報を収集し、予測を生成し、集計するためのシステムが開発されます。競合予測プラットフォームから質問のデータを収集し、LMの予測能力を評価します。結果は、LMが競争力のある人間の予測者に匹敵するか、それ以上になることを示しています。この研究は、LMを使って将来を予測することで、組織の意思決定に役立つ情報を提供できる可能性があることを示唆しています。
はじめに
この研究では、将来の出来事を予測することが重要で、政府や企業は経済や政治の動向を予測して意思決定に役立てています。従来の予測方法には統計的な手法や人間の判断が使われてきましたが、それらには制限があります。そこで、この研究では、言語モデル(LM)を使って自動的に予測するシステムを開発しました。このシステムでは、ニュースなどの情報を収集し、それを元に予測を行います。そして、複数の予測をまとめて結果を得ます。
上図は、検索および推論システムの概要です。 当社の検索システムは、要約された新しい記事を取得して推論システムに入力し、LM に推論と予測を促し、最終的な予測に集約されます。
関連研究
自動予測システムは、人間の意思決定をサポートする上で重要な役割を果たしています。過去の研究では、ニュース記事から抽出された質問を含むデータセットを用いて、機械学習システムが人間の予測者と競合する試みが行われてきました。最近の研究では、2022年までのコンテストデータを用いて、機械学習システムの予測精度が向上し、人間の予測者と匹敵するものもあることが示されています。しかし、このようなシステムはまだまれです。
さらに、2023年から2024年の質問に焦点を当てた最新の研究が行われており、機械学習システムの精度向上に取り組んでいます。情報検索(IR)は、イベントの予測において重要であり、LMを使用することで質問応答能力が向上します。予測の正確さはキャリブレーションに依存し、適切な採点ルールによって評価されます。
提案手法
検索
システムは、過去のニュース記事から情報を取得するために検索クエリを生成し、関連性の高い記事を選択します。質問に基づいてクエリを生成し、その後記事を取得しています。記事の関連性はLMによって評価され、関連性の低い記事は除外されます。また、記事は要約され、関連性の高い情報がモデルに提示されます。
推論
予測の質問に対して、モデルに推論させることで、予測の根拠を理解し、予測の改善を図ります。モデルには、質問の再表現や拡張、可能性の考慮、弱い引数の排除、バイアスのチェックなどが求められます。ベースモデルと微調整モデルが使用され、それらの結果がアンサンブルされます。
アンサンブル
複数のモデルからの予測を組み合わせることで、より信頼性の高い最終予測を生成します。最良のプロンプトやハイパーパラメータが選択され、複数の予測が統合されます。
上図は、自己教師ありトレーニング用のデータを生成する手順です。 この方法では、質問ごとに複数の推論予測ペアの候補が生成され、人間の集計よりも優れたペアが選択されて微調整されます。
最適化
システムの最適化では、推論モデルの微調整やハイパーパラメータの調整、検索クエリの最適化、推論の過程での要約の改善、さらにはアンサンブル手法の導入など、さまざまな手順が組み込まれています。これにより、より正確で信頼性の高い予測が実現され、システムの性能が向上します。このシステムは、検索と推論を組み合わせ、複数のモデルからの情報を効果的に利用して、予測の精度を向上させることを目指しています。
実験
研究では、提案されたシステムがテストセット上でのパフォーマンスが人間の予測に近いことが示されました。
上表は、カテゴリ別 (左) とプラットフォーム別 (右) のシステム評価の結果です。 すべての取得日を平均すると、最適化システムは、ブライアースコア 0.179 (人間の予測: 0.149) と精度 0.715 (人間の予測: 0.770) を達成しました。よって、このシステムは、過去の研究やベースラインモデルと比較して優れた結果を示しました。さらに、システムの長所と短所が詳細に分析され、将来の改良のための洞察が提供されました。
(a) 十分な関連記事が提供された場合、本システムは他のシステムよりも優れたパフォーマンスを発揮します。これは、システムが情報にアクセスし、それを適切に処理する能力を示しています。
(b) 人間が確信を持っていない質問(予測が 0.3 ~ 0.7 の範囲)の場合、本システムはそれらを上回りました。つまり、システムは人間よりも不確実な情報に対して優れた予測を行います。ただし、人間は自信が非常に高い質問については、システムよりも優れています。
(c) システムの Brier スコアは、取得日が早いほど優れています。これは、システムが最新の情報を素早く取得し、それを処理する能力を示しています。
また、システムが特定の条件下で選択的な予測を行う場合にも、人間を上回る性能を発揮することが示されました。この選択的なアプローチは、システムの効果的な活用を可能にしました。最後に、システムが人間の予測を補完する能力が報告されました。システムの予測と人間の予測を組み合わせることで、より信頼性の高い予測が可能になりました。これにより、提案されたシステムが実用的な予測ツールとしての潜在的な価値を示しました。
アブレーション
アブレーションでは、3つの異なる実験を行いました。まず、システムの性能が単にGPT-4の能力に依存しているのではないことを示すために、GPT-3.5を微調整して評価しました。結果は微小な差で、システムの性能は微調整の影響を受けていることを示唆しています。次に、微調整の利点を理解するために、GPT-4-Preview-1106モデルのみを使用してシステムを評価しました。微調整を行わない場合、システムの性能がわずかに低下します。最後に、ニュースの検索を行わずに、基本的なGPT-4-1106-Previewモデルのみを使用してシステムを評価しました。この場合、システムの性能はベースラインレベルまで低下します。結果的には、微調整や検索がシステムの性能向上に重要であることが示されました。
結論
この研究では、人間に近いレベルで予測できる最初の機械学習(ML)システムを開発しました。新しい検索メカニズムや微調整方法を提供し、正確な予測と推論を生成する手法を提案しました。また、5つの現実の予測コンテストからのデータセットをリリースし、さらなる研究のための基盤を提供しました。将来の展望として、以下のポイントが挙げられます。
反復的な自己監視方法の探求:モデルの微調整を繰り返すことで、自己改善を促進し、性能を向上させることができます。
より大規模なトレーニングデータの利用:大規模なコーパスを使用してLMをトレーニングすることで、より優れた予測能力が期待されます。
ドメイン適応型トレーニング:特定の分野にモデルを特化させるために、ドメイン知識を活用してモデルを微調整する方法が探求されます。
最新のモデルの利用:最新のモデルを使用して微調整することで、より優れたパフォーマンスが期待されます。
これらの取り組みにより、将来的にはLMベースのシステムが競争力のある人間の予報士と同等の正確な予測を行うことが可能となる可能性があります。
この記事に関するカテゴリー