最新AI論文をキャッチアップ

言葉で心を癒す、精神保健ケアにおける大規模言語モデルの可能性

言葉で心を癒す、精神保健ケアにおける大規模言語モデルの可能性

Large language models

3つの要点
✔️ 精神保健の重要性と大規模言語モデルの役割:精神保健障害は世界の健康問題であり、大規模言語モデルは精神状態の特定や感情支援に貢献。
✔️ 大規模言語モデルの包括的レビュー: 019年のT5モデル導入以降、大規模言語モデルの進化とそれが精神保健ケアに与える影響についての初の包括的レビューを提供
✔️ 改善が必要な領域の特定:精神保健ケアにおける大規模言語モデルの効果的な利用には、データ品質の向上、推論と共感能力の強化、プライバシー、安全性、倫理/規制への適切な対応が重要であることが指摘

Large Language Models in Mental Health Care: a Scoping Review
written by Yining Hua, Fenglin Liu, Kailai Yang, Zehan Li, Yi-han Sheu, Peilin Zhou, Lauren V. Moran, Sophia Ananiadou, Andrew Beam
(Submitted on 1 Jan 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

精神衛生は公衆衛生の中でも特に重要な分野です。アメリカ国立精神衛生研究所(NIMH)によると、2021年には22.8%のアメリカの成人が何らかの精神疾患を経験しています。世界的に見ても、精神保健障害は非致命的な疾病負担の30%を占め、主要な障害原因であることが世界保健機関(WHO)によって指摘されています。さらに、うつ病や不安障害などは、世界経済に年間1兆ドルの損失をもたらすと推定されています。これらのデータは、精神保健問題の予防と管理がいかに重要かを示しています。

精神保健の管理には、症状の評価や話し合い療法など、言語を通じたコミュニケーションが欠かせません。このようなコミュニケーションの分析には、自然言語処理(NLP)という技術が有効です。NLPは、自由形式のテキスト情報を有意義な方法で処理するコンピュータ科学の一分野です。特に、大規模言語モデル(LLM)の進歩は、精神保健ケアにおける革新的な可能性を拡大しています。大規模言語モデルは、電子健康記録やソーシャルメディアプラットフォームからのデータを効率的に要約し、精神状態の特定や感情支援チャットボットの構築など、多岐にわたる利点を提供します。

しかし、精神保健ケアにおける大規模言語モデルの活用に関する総合的なレビューは、まだ存在していません。この論文では、この分野における最初の包括的なレビューを提供することで、このギャップを埋めることを目指しています。特に、2019年のT5の導入以降に開発されたモデルに焦点を当て、過去4年間の大規模言語モデルの進化と精神保健ケアへの影響を検証しています。

精神保健ケアの分野では、大規模言語モデルが大量のテキストデータを処理し、人間らしい相互作用を模倣する能力を活かして、行動パターンの解釈や心理的ストレッサーの特定、感情的サポートの提供など、幅広いタスクを支援する可能性を秘めています。適切な規制、倫理、およびプライバシー保護のもとで、大規模言語モデルは診断プロセスの支援や精神障害管理の容易化、治療介入の強化など、臨床指向のタスクにも貢献できると期待されています。

手法

この研究では、体系的レビューとメタアナリシスに関する推奨報告項目(PRISMA)2020年版のガイドラインに沿って、厳密かつ透明性の高いプロセスを実施しています。下図はプロセスの概要です。

参考論文の選定では、T5の発表以降に公開された少なくとも一つの大規模言語モデルを使用した研究であり、それらのモデルが精神保健ケアの設定における研究課題に直接対応していることを基準に最新の研究に焦点を当てています。

初期の調査では、特にPubMedにおいて、このテーマに関連する公開研究が限られていることが明らかになりました。大規模言語モデルの進化の速さを踏まえ、研究の範囲を伝統的な査読付き文献を超えて広げています。急速に発展し、しばしば非伝統的な形式で報告される大規模言語モデルの最新の進歩を捉えるために、査読付き研究と非査読研究(例えばプレプリント)の両方を含めています。対象としたのは、2019年10月1日から2023年12月2日までに公開された、あらゆる形式のオリジナル研究です。言語の制約は設けていません。

複数のデータベースやレジストリ(ArXiv、MedRxiv、ACMデジタルライブラリ、PubMed、Web of Science、Google Scholar)で、キーワード「Large Language Model」と「mental OR psychiatry OR psychology」の組み合わせを用いて広範囲にわたる検索を行い、可能な場合は、検索をタイトルと抄録に限定し、この機能がないデータベースでは全文を対象に検索をしています。

検索した論文に対して、重複や抄録のない記事を取り除いた結果、初期スクリーニング対象として281件の論文が残りました。最近の研究では、GPT-4が記事スクリーニングの助けとなり、人間と同等の性能を発揮することが示されています。このため、GPT-4をこのプロセスのための補助レビューアとして導入しています。使用する前に、GPT-4のスクリーニング効率を最大化するための異なるプロンプトを試しています。

YHとGPT-4はそれぞれ独立して論文のタイトルと抄録を審査し、その研究が含まれるべきか否かを評価しています。選択肢は「1(含む)」「0(除外)」「2(不確か)」の3つです。発生した不一致は、レビューチームの他のメンバー(YH、KY、ZL、FL)との議論を通じて解決されました。人間のレビュアー(YH)とAI(GPT-4)間の一致度を定量的に評価するために、コーエンのカッパ係数を計算し、約0.9024という高いスコアが得られています。これは、双方の間に強い合意があったことを示しています。GPT-4は一般により包括的であり、人間のレビュアーよりも多くの論文を精神保健ケアに関連があると分類しています。しかし、「不確か」の選択肢を設けることで、カッパ係数が若干低下したものの、関連する論文を総合的に含めるために重要であり、徹底性と精度のバランスを取るのに役立っています。

最終的な全文レビューでは、43件の論文が選定されています。チームメンバーのYH、KY、ZL、FLはこれら全ての論文を精査し、品質が低い、精神保健がテストケースとしてのみ扱われている、またはモデルサイズが基準を満たしていないという理由で、9件の論文を除外しています。具体的には、品質が低いため1件、精神保健をテストケースとしてのみ扱っているため3件、モデルサイズが不適格であるため5件が除外されています。

レビューの過程で、研究は、それぞれの研究課題と目的に基づいて以下のカテゴリーに分類されています。

  1. データセットとベンチマーク:制御された条件下で異なる手法、システム、またはモデルの性能を評価し比較するために、標準化されたテストやベンチマークデータセットを使用する研究。
  2. モデル開発とファインチューニング:新しい大規模言語モデルの提案や、ファインチューニングやプロンプティングといった手法を用いて精神保健ケア向けに既存の大規模言語モデルを改善・適応させる研究。
  3. アプリケーションと評価:実際のアプリケーションにおける精神保健関連タスクで大規模言語モデルの性能を評価する研究。特定のタスクでの大規模言語モデルの評価(推論のみ)の場合も含む。
  4. 倫理、プライバシー、および安全性への考慮:精神保健の敏感な文脈での大規模言語モデルの展開に伴う潜在的リスク、倫理的ジレンマ、プライバシー上の問題を検討し、これらを軽減するためのフレームワークやガイドラインを提案する研究。

この基準を満たした34件の論文が、後の分析の対象になっています。研究問題に対するアプリケーションに焦点を当て、徹底的な分析を保証するため、「データセットとベンチマーク」の研究は別個に要約されています。 

結果の概要

下図は、最終分析に含まれる論文の提出・発表時期とタイプを示しています。この図に示されるように、精神保健ケア分野における大規模言語モデルに関する研究は2022年9月に登場し、出版量が段階的に増加し、特に10月には著しい急増が見られています。

これらの研究の大多数は「プロンプトチューニングとアプリケーション」に焦点を当てており、7月から増加が始まっています。一方で、「モデル開発とファインチューニング」に関する研究は、年初にはほとんど見られず、10月に顕著に増加しています。「データセットとベンチマーク」に関する研究は年内に2件のみで、倫理、プライバシー、その他の課題を扱う研究も1件のみで、年の中盤に発表されています。

アプリケーションの領域と関連する精神保健状態

レビューを通じて、研究の範囲とそれに使用されたデータセットの間には強い関連が見られています。ここでは、これらの研究を通じてのアプリケーションの領域と、それらが対象とする意図された精神保健状態についての概観を提供します。下表では、これらの研究で利用されたデータセットの詳細な要約が記載されており、その使用目的が詳しく説明されています。

アプリケーションの領域と関連する精神保健状態

精神保健ケア分野における大規模言語モデル(LLM)の研究は、2022年9月にその姿を現しました。公開される研究の数は徐々に増加し、特に10月には顕著な急増を見せました。この傾向を示す図2には、それらの研究が「プロンプトチューニングとアプリケーション」に集中していることが示されており、7月にはその数が増加し始めました。対照的に、「モデル開発とファインチューニング」に関する研究は、年の初めにはほぼ見られず、10月に大幅な増加を見せました。また、「データセットとベンチマーク」に焦点を当てた研究はわずか2件であり、年の後半に登場しました。倫理、プライバシー、その他の懸念を扱う研究は1件のみで、年の中盤に発表されています。

精神保健ケアに関連する大規模言語モデルの研究は、大きく分けて3つの主要な領域にわたっています。1つ目の領域は、共感的かつ文脈を理解する応答を生成するモデルの能力を向上させることを目的とした会話エージェントの開発です。これらのエージェントは、特定の精神障害に特化することなく、幅広い精神保健のニーズに対応しています。また、個人デジタルコンパニオンやオンデマンドオンラインカウンセリング、感情サポートなど、多様なプラットフォームを通じてサポートを求める人々と直接やり取りすることを目的とした研究も含まれています。一部の研究はカップルセラピーのような特定のアプリケーションにまで拡大しています。他にも、ケアプロバイダーを支援し、プロバイダー不足の問題を緩和するための特定の推薦や分析を提供する研究もあります。

2つ目の領域では、リソースの豊富化を目的とした研究が行われています。これには、マルチタスク分析や教育コンテンツの開発が含まれ、社会精神医学に関連する仮想ケースビネットの作成やパーソナライズされた心理教育素材の開発などが行われています。さらに、大規模言語モデルが提供する合成データを活用し、うつ病の症状学を豊かにするための臨床アンケートのデータ増強やファインチューニングなどに取り組んでいます。

3つ目の領域では、大規模言語モデルが詳細な診断のための分類モデルとして活用されています。これには、特定の文脈で単一の状態の存在または非存在を検出するバイナリ分類や、状態のより詳細な情報、重症度やサブタイプを含むマルチクラス分類が頻繁に関与しています。

マルチクラス分類の例には、うつ病の重症度予測(DSM-5による最小、軽度、中度、重度)、自殺のサブタイプ(コロンビア自殺重症度評価尺度(C-SSRS)による支援、指標、考え、行動、試み)、ストレス源の特定(学校、財政、家族、社会関係など、SADで確立された分類に基づく)が含まれています。

レビューされた34件の論文の中で、23件が特定の精神保健問題に焦点を当てており、残りは特定の条件を設定せずに一般的な精神保健知識や対話を探求しています。特定の精神保健問題に関する研究は、ストレス、自殺、うつ病などの頻繁に研究される状態を含め、さまざまな精神保健状態をカバーしています。

モデルと学習技術 

精神保健ケアにおける大規模言語モデルの進化と応用についての洞察を深めるため、ここでは、モデルとトレーニング技術に焦点を当てます。事前訓練済みモデルの有効性は、トレーニングデータ、サイズ、オープンソースかどうかという基本的な要素に大きく依存しています。これらは合わせて、モデルが特定のタスクや集団に対してどれほど代表的であるか、または潜在的なバイアスがあるかを決定します。

下表では、精神保健ケアのために開発された既存の大規模言語モデルの要約です。この要約には、基本モデルの詳細、パラメーター数によって示される規模、基本モデルトレーニングデータの透明性、トレーニング中に採用された戦略、オープンソースである場合のアクセシビリティに関する情報が含まれています。「B」は10億を表しています。また、TFPとIFTは、それぞれ「チューニング不要のプロンプト(tuning-free prompting)」と「命令の微調整(instruction fine-tuning)」を表しています。

多くの研究は、GPT-3.5やGPT-4などのモデルに直接プロンプトを送り、うつ病の検出、自殺の検出、認知の歪みの検出、関係カウンセリングなど、精神保健アプリケーションに特化しています。これらのモデルは、分析、予測、サポートを含む幅広い精神保健サービスを提供する知的なチャットボットとして機能します。効果を高めるため、フューショットプロンプティングやチェーンオブソート(CoT)プロンプティングなどの方法が用いられます。これらは、大規模言語モデルに人間の感情の認知推論を生成させるための新しいアプローチです。

また、精神保健特有のテキストを使用して一般的な大規模言語モデルをさらにトレーニングまたはファインチューニングすることに焦点を当てた研究もあります。このアプローチは、既存のベースの大規模言語モデルに精神保健の知識を注入し、より関連性が高く正確な分析とサポートを実現することを目指しています。MentaLLaMAやMental-LLMのようなプロジェクトでは、ソーシャルメディアデータを使用してLLaMA-2モデルやAlpaca/FLAN-Tモデルをファインチューニングし、精神保健の予測を向上させています。ChatCounselorは、クライアントと心理学者間の実際の相互作用を含むPsych8kデータセットを利用してLLaMAモデルをファインチューニングしています。

ファインチューニングでは、大規模言語モデルをゼロからトレーニングするためにかかる高額なコストと広範な時間を考慮し、既存の研究は一貫して精神保健データ上で既存モデルをファインチューニングするアプローチを採用しています。精神保健データ上で既存モデルを強化することを目指しています。このアプローチにより、モデルは専門のドメイン知識を習得し、精神保健に焦点を当てた大規模言語モデルへと進化します。ァインチューニングを行ったすべての研究では、インストラクションファインチューニング(IFT)技術が採用しています。インストラクションファインチューニング(IFT)技術は、モデルにタスクを実行するよう指示する新しいタイプのファインチューニングです。この方法は、大規模言語モデルにドメイン知識を注入し、人間の指示に従う能力を向上させます。例えば、ChatCounselorは、GPT-4にクライアントと心理学者の会話を基にした指示を与え、具体的な入力と出力を生成させています。このようにして、大規模言語モデルは精神保健ケアの分野でより適切に活用されることが期待されます。 

データセットの特性

精神保健ケア分野における研究において、データの整合性は重要な役割を果たします。特に、データセットの代表性、品質、そして潜在的なバイアスは、研究成果に大きく影響を与えるため、データセットのソースと特性を正確に理解することが、公正な研究結果を得る上で欠かせません。この論文では、使用されたデータセットを詳細に検討し、それらの関連するタスク、データソース、サンプルサイズ、注釈方法、人間レビュアの経験、ライセンスについて下表の通りです。

レビューした34件の研究には、36個のデータセットが特定され、これらは精神保健ケアタスクに適用可能な多様なデータを含んでいます。ほとんどのデータセットは検出や分類タスクに特化しており、うつ病や心的外傷後ストレス障害(PTSD)の検出、ストレス原因の特定、対人リスク要因の予測などが含まれています。また、カウンセリングセッションのシミュレーションや医療問い合わせへの応答、共感的対話の生成などのテキスト生成タスクに焦点を当てたグループもあります。さらに特殊なアプリケーションには、感情サポートの大規模言語モデルのユーザー議論分析や対話の安全性探求などが含まれています。

データセットのソースは、Reddit、Twitter、Weiboなどのソーシャルメディアプラットフォームから収集されたものが多く、管理された場所からのデータセットもありますが、LLMによって合成されたデータや、既存の感情辞書、クラウドワーカーによるシミュレートされた会話など、他のソースからのものもあります。

データセットのサイズや単位はソースや注釈方法によって異なり、専門家コンテンツから構成されるデータセットはサンプル数が少ない傾向にあります。大半のデータセットは手作業による収集や注釈付けで作成されており、弱い教師つき学習を使用した研究も存在します。大多数のデータセットでは、専門家のレビューが行われており、公開されているデータセットに依存する研究が多く、一部は独自に構築されたデータセットですが、非商業目的での使用に限定されるライセンスでリリースされています。

検証指標

大規模言語モデル(LLM)の効果的かつ公平な評価を実現するため、検証指標の選定は極めて重要です。この論文では、自動評価と人間による評価の二つのカテゴリーにわけて分析しています。下表に自動評価用のメトリクスと、人間による評価で用いられる属性の詳細がまとめられています。言語能力と精神保健の適用性という二つの視点からメトリクスをさらに分類し、それぞれの適切性を検討されています。

精神保健の適用性に関しては、F1スコアの異なる形式が最も一般的に採用されている指標です。同様に、精度(Accuracy)も基本的な指標として広く使用されています。リコール(感度)と精密度(Precision)もしばしばF1スコアや精度と共に用いられ、広範に使用されています。診断に特化した研究では、受信者操作特性(AUROC)や特異性(Specificity)などの追加のメトリクスを採用して、大規模言語モデルの診断の妥当性に対する包括的な理解を目指しています。

言語能力の評価では、BLEU、ROUGE、Distinct-N、METEORが人間のような言語の適合性、表現の多様性、生成テキストの品質を評価するために広く使用されています。GPT3-Score、BARTScore、BERT-Scoreなどの高度なメトリクスは、特定の文脈でのテキストの意味的一貫性と関連性を評価するために設計されています。パープレキシティは、モデルの予測可能性とテキストの自然さを評価するために使用され、ExtremaとVector Extremaは、モデルの言語的創造性と深さを反映します。これらの従来の言語評価メトリクスの使用は、精神保健ケアにおける大規模言語モデルのフリーテキスト生成の品質を評価するための効率的で理解しやすい自動メトリクスが不足していることから推進されています。結果として、多くの研究では人間による評価が頻繁に採用されています。

レビューされた34件の研究の中で、19件が自動評価と人間による評価の組み合わせを使用し、5件は人間による評価のみを採用し、残り10件は自動方法のみに依存しています。しかしながら、広く受け入れられた統一的な評価フレームワークは存在せず、一部の研究は公開された評価基準や以前の研究で議論された属性を適用または適応していますが、これらのフレームワークは広く採用されていません。共感、関連性、流暢さ、理解、有用性などの頻繁に重複する属性が、特に介入アプリケーションにおいてユーザーの関与や技術の採用といった側面を評価するために用いられています。いくつかの属性は、名前を共有しているものの、研究によって定義が異なる場合があります。例えば、「情報提供度」は、大規模言語モデルの応答の豊かさに関連する場合もあれば、感情的苦痛についての個人の詳細な説明の程度を測定する場合もあります。専門家による評価はモデル出力の直接分析や専門家によるアンケート評価に重点を置いています。信頼性メトリクスの使用は、研究手法の妥当性を検証するために重要で、レビュアの数は3人から50人までと幅広くなっています。

懸念事項

精神保健ケアにおける大規模言語モデル(LLM)の使用に伴うプライバシーの問題は、研究全体を通じて特に重要な懸念事項です。特に、精神保健ケアアプリケーションが扱う敏感なデータの性質がこれを強調しています。いくつかの研究は、敏感なデータの露出リスクを強調し、厳格なデータ保護と倫理基準の必要性を訴えています。また、安全性と信頼性が基本的な要件として挙げられ、有害なコンテンツの生成を防ぎ、正確で適切なレスポンスの提供を保証することが強調されています。

大規模言語モデルの利点を活かしながら安全性を確保するという重要なバランスにも焦点を当て、精神保健支援におけるリスク評価、信頼性、一貫性の継続的追求に注目しています。AIに対する依存度の増加が引き起こす現実の対話の軽視や過度の依存の可能性についての懸念もあります。不正確な内容や偏見が含まれたコンテンツは、精神保健コンテキストにおいて認識や意思決定に深刻な影響を及ぼす可能性があります。

技術的およびパフォーマンスの課題は、モデルの制限や一般化の問題から、メモリと文脈の制限に至るまで多岐にわたります。これらの問題は特に、複雑な実世界の設定におけるAIアプリケーションの信頼性と効果に影響を与えます。パフォーマンスの変動性、堅牢性、透明性へのニーズは、継続的な革新と精査が求められる領域です。

実世界への応用に移行することは、特に精神保健において正確さと感受性が求められるため、追加の複雑さをもたらします。長期的な効果、実験室設定と実世界設定の違い、アクセス性とデジタル格差の課題は、大規模言語モデルの潜在力とその実践的実装とのギャップを埋める際の課題を示しています。

また、多様で広範なデータセット、専門的なトレーニング、データ注釈の重要性が強調されています。これらは、責任を持ってこの分野を前進させる上で重要な要素です。大規模な計算リソースと専門家の参加も、この進歩に不可欠な要素として挙げられています。

このレビューでは、精神保健ケアにおける大規模言語モデルの効果を客観的に評価し、改善が必要な領域を明らかにするためのベンチマーク研究も含まれています。これまでに2つのベンチマーク研究が行われ、GPT-4やGPT-3.5、Alpaca、Vicuna、LLaMA-2などのモデルが、診断予測から感情分析、言語モデリング、質問応答に至るまで、多様なタスクで網羅的に評価されました。データは、ソーシャルメディアやセラピーセッションから得られています。 Qi et al.の研究は、特に中国のソーシャルメディアデータを用いた認知の歪みの分類や自殺リスクの予測に焦点を当てており、ChatGLM2-6BやGPT-3.5などのモデルが評価されています。

まとめ

この論文は、2019年のT5モデルの導入以降、精神保健ケア分野での大規模言語モデル(LLM)の進化を総合的なレビューした初めての論文です。34件の関連研究を精査し、大規模言語モデルが取り組む様々な特性、方法論、データセット、検証指標、応用領域、そして特定の精神保健課題を包括的にまとめています。この総合的なレビューは、計算機科学と精神保健のコミュニティ間の架け橋として機能し、得られた洞察を広く共有することを目的としています。

大規模言語モデルは、自然言語処理(NLP)の領域で卓越した能力を発揮するアルゴリズムです。これらのモデルは、精神保健関連タスクの要件に密接に合致しており、この分野での基礎的なツールとしてのポテンシャルを持っています。しかしながら、大規模言語モデルが精神保健ケアの向上に寄与する可能性が示唆されているものの、現在の状態と実際の臨床適用性との間には依然として大きな隔たりが存在します。

そこで、この論文では次のように臨床実践における大規模言語モデルの潜在力を最大限に引き出すために必要な改善の方向性を示しています。

  1. データ品質の向上:大規模言語モデルの開発と検証に使用されるデータの品質は、その有効性に直接影響します。現在、プロンプトチューニングが主流の方法として採用されていますが、GPT-3.5やGPT-4といったモデルが精神保健の複雑な文脈で時折期待に応えられない場合があります。これらの課題に対処するため、オープンソースの大規模言語モデルへのファインチューニング技術の探求が求められています。
  2. 推論と共感力の強化:精神保健ケアにおける対話ベースのタスクでは、ユーザーからの発言を分析し、適切なフィードバックを提供するために、高度な推論と共感能力が必要です。これらの能力を評価するための統一されたフレームワークの欠如は、分野全体の発展に影響を与えています。
  3. プライバシー、安全性、倫理/規制への対応:大規模言語モデルを精神保健アプリケーションに適用する際は、患者のプライバシー、安全性、および倫理基準への厳格な遵守が不可欠です。データ保護法規への準拠、モデルの透明性、インフォームドコンセントの確保が必要です。

このレビューは、精神保健ケアにおける大規模言語モデルの活用に関する現在の状況と将来の可能性を明らかにしています。技術的な進歩、評価基準の標準化、倫理的な使用に向けた連携が、この分野でのさらなる進展を促進する鍵となります。これにより、大規模言語モデルが精神保健ケアの支援においてその可能性を最大限に発揮できるようになることが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする