大規模言語モデルを活用したメンタルヘルスケア、AIカウンセラーの有効性と課題
3つの要点
✔️ 若者にとって利用しやすいテキストによるカウンセリングの必要性が増しているが、経験豊富なカウンセラーの不足が課題
✔️ GPT-4を用いたカウンセリング対話システムの応答が専門カウンセラーに評価され、人間のカウンセラーと同等の性能を達成
✔️ AIがカウンセリング分野で重要な役割を果たす可能性が示されたが、完全自動化にはさらなる改良が必要
Can Large Language Models be Used to Provide Psychological Counselling? An Analysis of GPT-4-Generated Responses Using Role-play Dialogues
written by Michimasa Inaba, Mariko Ukiyo, Keiko Takamizo
(Submitted on 20 Feb 2024)
Comments: Accepted as a conference paper at IWSDS 2024
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
現代社会では、メンタルヘルスケアの問題が深刻化しています。例えば、日本では10歳から39歳までの死因の第1位が自殺です。また、世界保健機関(WHO)によると、自殺は、世界的にも若者の主要な死因となっています。このような背景から、メッセージアプリを利用して心理的支援を提供するテキストベースのカウンセリングが注目されています。
テキストベースのカウンセリングは、特に若い世代にとって、電話やメールベースのカウンセリングよりも、心理的ハードルが低く、アクセスしやすい利点があります。しかし、経験豊富なカウンセラーが不足しているという課題があります。対面や電話、メールでのカウンセリング経験がある人であっても、適切な指導や訓練なくテキストベースのカウンセリングをするのは難しいと言われています。さらに、そのような適切な指導ができる人材も不足しています。
このような背景から、自然言語処理を活用したメンタルヘルス支援の方法が研究されています。特に、メンタルヘルス不調や障害の自動検出は注目を集めている研究分野です。対話システムの分野では、メンタルヘルスの改善を目指したシステムがいくつか開発されています。一方で、最近の大規模言語モデルの発展によって、様々なタスクやドメインへの適応性が示されていますが、大規模言語モデルを利用したカウンセリング対話システムの性能はまだ十分に評価されていません。
この論文では、GPT-4を使用してカウンセリング対話システムを構築し、生成された応答を専門のカウンセラーが評価しています。適切な応答を生成するために、専門のカウンセラーとのロールプレイシナリオを通じてカウンセリング対話データを収集し、発話にはカウンセラーの意図がアノテーションされています。実際のカウンセリング状況で対話システムを使用する可能性を評価するために、第三者のカウンセラーがロールプレイ対話データの同じ文脈で、人間のカウンセラーとGPT-4が生成した応答の適切性を評価しています。
ロールプレイ対話の収集とカウンセラー応答の生成
ロールプレイ対話の収集には、2人のカウンセラーが参加しており、1人はクライアント役、もう1人はカウンセラー役を担当し、対話はメッセージアプリ「LINE」を使って、日本語で行っています。対話は、下表の6つのテーマで、それぞれ1つずつ、合計6つの対話データを収集しています。
カウンセリングの対話における大規模言語モデルの有効性を検証するために、収集したロールプレイの対話データを使用して、GPT-4にカウンセラー役として発話を生成しています。高品質な応答を得るために、下表のように、収集したカウンセラーの発話に応答のポイント(Key point)と意図(Intent)を注釈しています。
また、GPT-4に応答を生成させるプロンプトには、下表のものが使用されています。このプロンプトでは、GPT-4にカウンセラーとして応答を生成するよう指示し、専門のカウンセラーが監修したガイドラインも追加しています。また、カウンセラーとクライアントの進行中の対話をプロンプトに含めています。
対話には、開始から前回のクライアントの発言まで全てのテキストが含まれており、カウンセラーの発話の前には、下表のように、応答のポイントと意図を注釈しています。
GPT-4は、OpenAI APIのGPT-4-0613を使用し、温度は0.0、他のパラメータはデフォルト設定のままにして使用しています。生成された発話の統計値は下表のようになっています。
人のカウンセラーの発話数がGPT-4よりも多いのは、ロールプレイシナリオでは人の話者が連続したメッセージを送信できたのに対し、GPT-4は一度に1つの発話を生成するためとされています。
分析
専門カウンセラーがロールプレイ対話とGPT-4が生成した発話を評価しています。評価は0(悪い)から2(良い)の3段階のリッカート尺度が利用され、各対話に3人のカウンセラーが参加しています。また、評価理由も記録され、合計7人のカウンセラーが評価に参加しています。下表のように、生成された発話のサンプルと、各カウンセラーの平均スコアが示されます。
なお、テーマ1から3の対話(カウンセラーの発話: 157、GPT-4の発話: 124)について、評価の一致度を測るためにクリッペンドルフのα係数を算出しており、α係数:0.24で、評価者間の相関は弱いことが示されています。
カウンセラーとGPT-4の発話の平均評価スコアは、それぞれ0.99(分散: 0.49)と0.94(分散: 0.61)になっています。また、有意水準0.05でマン・ホイットニーのU検定を実施し、有意な差は見られていません。これは、カウンセラーとGPT-4の応答品質に大きな差がないことを示しています。
下図は、カウンセラーとGPT-4による発話の評価割合です。GPT-4の発話はカウンセラーの発話に比べて評価が0と2になる割合が高いことがわかります。
カウンセラーの発話の半数以上が評価1を受けていますが、これは「なるほど(I see)」や「はい(Yes)」といった短い発話が1点として評価されたためとしています。
評価結果から、評価者のスコアリング傾向には個人差があることが示されています。そのため、同じ評価者が同じ文脈でカウンセラーの発話とGPT-4の発話をどのように評価したかを分析しています。クライアントが応答する前にカウンセラーが連続して発話した場合、すべての発話の平均評価をカウンセラーの発話の評価として使用しています。結果は下表に示されています。
カウンセラーの発話が優れていると評価された割合をGPT-4の発話と比べると、34.8% vs. 30.5%となり、GPT-4の発話よりも高くなっいますが、その差は小さく、34.7%の発話は、同等(Tie)と評価されています。GPT-4の応答品質がカウンセラーの応答に非常に近いことが確認されています。プロンプトに十分な説明がなされていない状況においても、大規模言語モデルが生成する応答は、人間と同等の性能を示していることから、GPT-4の性能はさらに向上できる可能性があり、大規模言語モデルベースのシステムを使用した実際のカウンセリング提供が期待されます。
ケーススタディ
実際に対話システムでカウンセリングを提供する際には、不適切な応答を最小限に抑えることが重要です。この論文では、この低評価を受けたGPT-4の応答を分析しています。
低評価を受けた応答を確認すると、その原因は、不適切または不自然な表現や言葉遣いであるとしています。例えば、「興味深い」という言葉の使用は、クライアントに不快感を与える可能性があります。この言葉は、カウンセラーがクライアントの問題を好奇心の対象(面白がっている)として扱っているように受け取られる恐れがあります。
また、GPT-4の応答がクライアントの問題を他人事のように扱っている場合もあるとしています。例えば、「難しそうですね」という表現は不誠実に感じられ、避けるべきだと評価者が指摘しています。
カウンセリングにおいては、リスクのある応答を避けることが特に重要です。GPT-4が生成した発話には、攻撃的または差別的な発言は含まれていませんでしたが、少数のリスクのある発話が確認されました。例えば、「親切が自分を苦しめる」という応答は、親切にすべきでないという誤った価値観を植え付けるリスクがあります。
この検証で確認されたリスクのある応答の数は少なかったものの、入力プロンプトに攻撃的な内容が含まれている場合、GPT-4はそれに応じて攻撃的な文を生成する傾向があります。この論文のロールプレイ対話では、攻撃的な内容は生成されませんでしたが、実際のカウンセリングではクライアントが攻撃的な内容を含む可能性があります。今後の研究では、そのようなケースの分析を行い、さらに安全で効果的なカウンセリング対話システムの開発が求められます。
まとめ
この論文では、ロールプレイのカウンセリングの対話データを収集し、注釈を付け、GPT-4が生成した応答の適切性を専門のカウンセラーが評価しています。その結果、GPT-4の応答が人間のカウンセラーの応答と同等の品質があることが明らかになっています。また、低評価だった応答にも、攻撃的、差別的、高リスクな応答は含まれなかったと報告しています。
この論文は、AIが実際のカウンセリングシーンでどれほど有用かを探る第一歩として重要なものと言えます。GPT-4が人間のカウンセラーとほぼ同等の品質を持つという結果は、将来的にAIがカウンセリングの分野で重要な役割を果たす可能性を示唆しています。
しかし、完全に自動化されたカウンセリングサービスを実現するためには、さらなる検証と改良が必要ともしています。私たちが目指すのは、人間の感情や微妙なニュアンスを理解し、適切に対応できるAIシステムを開発するためには、多様なシナリオでのテストと、継続的な改良が欠かせません。
このような論文を通じて、AI技術の進化と、更なる研究の進展によって、より気軽にカウンセリングを受けやすくなる社会が期待されます。深刻な問題を抱える人が迅速にサポートを受けられる環境を整えることができます。
この記事に関するカテゴリー