複数のペルソナを割り当てることでLLMの優れた問題解決能力を引き出すアプローチが登場！

agent simulation 2023年08月24日

3つの要点
✔️ 複数のペルソナによるフィードバックを繰り返す事でLLMの多様な専門知識を引き出すアプローチであるSolo Performance Prompting(SPP)を提案
✔️ 複数の詳細なペルソナを割り当てることでLLMの優れた問題解決能力が引き出されることを発見
✔️ Chain-of-Thought Promptingとの比較実験により、SPPの有効性を実証

Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration
written by Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji
(Submitted on 11 Jul 2023 (v1), last revised 14 Jul 2023 (this version, v2))
Comments: work in progress
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

大規模言語モデル(Large Language Models, LLM)は一般的なタスクを解決するためのエージェント生成に関しては目覚ましい性能を発揮している一方で、hallucination(LLMが事実とは異なるもっともらしいウソを出力する現象)やfactual error(事実を誤認してしまう現象)などの問題が確認されてきました。

こうした問題点を持つことから、cognitive synergyと呼ばれる異なる認知プロセスや情報を統合する能力を活用できる人間とは異なり、現在のLLMは膨大な知識が集約されたいわば「何でも屋」に近い存在になっています。

加えて、Chain-of-Thought promptingやself-refinementのような最近の研究は中間ステップの生成や反復的な修正を通じてLLMの推論能力を高めることに成功していますが、やはり内部知識獲得におけるhallucinationやfactual errorが依然として大きな課題になっています。

本論文の筆者はこれらの問題を解決するために、複雑なタスクにおいて問題解決や全体的な有効性を向上させるために複数のペルソナを連携させ、それぞれのユニークな能力や専門知識を融合させる知的エージェントであるcognitive synergistを生成させることを有効であると考えました。

本稿では、こうした背景より複数のペルソナによるフィードバックを繰り返すことで、単一のLLMをcognitive synergistに変換するアプローチであるSolo Performance Prompting(SPP)を提案し、比較実験によりLLMにおいて複数の詳細なペルソナを割り当てることでより優れた問題解決能力が引き出されることを発見した論文について解説します。

Solo Performance Prompting

下図は、従来のプロンプティング手法であるChain-of-Thought Promptingと本手法であるSolo Performance Prompting(SPP)の違いを説明したものになります。

一番大きな違いは、SPPはLLMによって生成された1人のエージェントに対して、様々なタスクを効果的に解決するためにペルソナを動的に設定し、フィードバックによる修正を行うcognitive synergistに変身させる点になります。

タスク入力に基づいて異なるペルソナを動的に識別しシミュレーションさせる構造により、複雑なタスクにおける問題解決と全体的なパフォーマンスを向上させ、効果的にLLMの内部知識を引き出すことが可能になっています。

下図は、ゲームの「ゼルダの伝説」、映画の「ハリー・ポッター」、歌手のJay Chouのアルバムなど、様々な領域から情報を統合する必要がある難易度が高いタスクにおいて、SPPがどのように動作するかを示す具体例になります。

既存の標準的なプロンプトでは、重要な情報の欠落やfactual errorにより適切なアウトプットが得られない一方で、SPPはハリー・ポッターのファンやJay Chouのファンといった特別なペルソナを持つ参加者各自がそれぞれの専門性に基づいてタスクへのアプローチ方法について提案を行うことで、適切な情報が獲得できています。

その後、リーダーペルソナであるAIアシスタント(ユーザー)が最初の解決策を提案し、他の参加者のフィードバックを求め、その内容から反復的に修正を繰り返し、最終的な解決策を出力します。

これらの一連の流れはPersona Identification・Beginning Remarks・Multi-Persona Iterative Collaborationの3つの要素から構成されています。

Persona Identification

入力が与えられるとSPPはまず、タスク解決に対して有効である可能性がある様々なペルソナを持つ参加者のリストを生成します。

例えば、前述した具体例のように「歌手のJay Chouのセカンドアルバムの最後の曲は？」という知識を検索するために、Jay Chouのファンのペルソナを生成します。

また、ここでのペルソナは手動で定義するのではなく、言語モデルによって自動的に定義されます。

Beginning Remarks

言語モデルによって様々なペルソナが生成された後に、ユーザーがAIアシスタントとして最初の解決策を提案し、その後各ペルソナはそれぞれの視点からタスクへのアプローチ方法について発言を行います。

前述した具体例ではJoy Chouのファンが、Jay Chouのセカンドアルバムの最後の曲は「An Jing」であることを指摘する発言を行なっています。

こうした発言による修正を繰り返すことで、AIアシスタントが最初に提案した解決策が効果的に改善されていきます。

Multi-Persona Iterative Collaboration

AIアシスタントが最初の解決策を提案したのち、他の参加者がフィードバックを行い、AIアシスタントが解決策の修正を繰り返すというプロセスを、参加者全員が最終的な解決策に満足するまで何度も繰り返します。

このプロセスが終了した際に、"Finish collaboration!"と言う文字が出力され、最終的な解決策が生成されます。

こうした構造により、SPPは単一の大規模な言語モデルのみに基づいて効果的にドメイン知識を引き出し、hallucinationを減らすことを可能にしています。

Experiments（Trivia Creative Writing Task）

本論文で提案されたSolo Performance Prompting(SPP)の有効性を実証するために、以下のタスクを用いてChain-of-Thought Prompting(CoT)との比較実験を行いました。(実験には全てGPT-4-32K APIを使用)

下図に示すTrivia Creative Writing Taskは、N個のトリビアについての質問に対する答えを組み込みながら、トピックに関する主尾一貫したストーリーを描くようにモデルに要求するタスクになります。

Nが大きいほどより多くの質問を含むため、モデルはより多様なドメイン知識を引き出す必要があり、本論文ではN=5とN=10の2つの評価設定で実験を行いました。

本実験結果(N=5)は下図のようになりました。

図より、CoTはタスクを解決するための合理的なプランを生成するように試みても、最終的な回答にはfactual errorやhallucinationが見られるなどの問題が見られる一方で、SPPは適切に回答できていることが確認できます。

加えて注目すべきは、こうした改善はN=5の時と比較してN=10の時により顕著であり、これは多数の異なるドメインから知識を取り込む必要があるタスクの場合、異なる専門知識を引き出すために多様なペルソナを生成するSPPがより有効であることを示唆していると言えます。

まとめ

いかがだったでしょうか。今回は、複数のペルソナによるフィードバックを繰り返すことで、単一のLLMをcognitive synergistに変換するアプローチであるSolo Performance Prompting(SPP)を提案し、比較実験によりLLMにおいて複数の詳細なペルソナを割り当てることでより優れた問題解決能力が引き出されることを発見した論文について解説しました。

本論文で行われた比較実験より、既存手法と比較してその有効性が実証された一方で、詳細なペルソナを割り当てても回答が不正確な場合があるなどの問題点も残っています。

加えてペルソナを割り当てることでどの程度まで特定領域の知識を高めることができるかは未だ不明瞭であり、こうしたペルソナの影響を定量化するためには専門的な診断が必要になるため、今後の動向に注目が集まります。

今回紹介したSolo Performance Promptingや実験の詳細は本論文に載っていますので、興味がある方は参照してみてください。