AIエージェントがユーザーの暗黙的な意図をどれだけ汲み取ることができるかを評価するベンチマークが登場!
3つの要点
✔️ エージェントがユーザーの暗黙的な意図をどれだけ理解できるかを評価する新しいベンチマークであるIN3(Intention-in-Interaction)を提案
✔️ 既存モデルのMistral-InteractにXAgentフレームワークを統合することで、インタラクションに特化したエージェント設計を行う
✔️ 包括的な実験により、96%以上のユーザーの意図を理解し要約できることが確認された
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
written by Cheng Qian, Bingxiang He, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Zhong Zhang, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
(Submitted on 14 Feb 2024 (v1), last revised 15 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Human-Computer Interaction(cs.HC)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
近年、OpenAI GPT・LLaMA・Mistralなどの大規模言語モデル(Large Language Models, LLM)は、高品質なテキストやコードの生成において大きな進歩を遂げています。
これらのモデルの特徴は、言語モデルが外界と相互作用し、ユーザーのタスクを支援するAIエージェントとしてフィードバックを受け取ることを可能にしていることであり、これまでBabyAGI・AutoGen・CAMEL等の様々なオープンソースのフレームワークが開発されてきました。
一方で、こうしたフレームワークは以下のような問題点が指摘されていました。
- ユーザーのエージェントシステムに対する最初の指示は曖昧かつ簡潔的であるため、ユーザーの意図を汲み取ることができない
- 複数のユーザーが明示的な問い合わせや着想を必要とする様々な意図を持っているにも関わらず、LLMがこうしたユーザーインタラクションを考慮することができない
こうした問題点により、エージェントタスクの実行において、一見タスクを達成したように見えてもユーザーの真の意図から大きく外れてしまう"fake success(偽の成功)"に繋がってしまうことが多々ありました。
しかし、既存のエージェントベンチマークは通常、与えられたタスクの成功を前提としており、評価のための重要な側面であるユーザーの意図理解の能力を考慮していませんでした。
本稿ではこうした背景から、明示的なタスクの曖昧さの判定とユーザーへの問い合わせを通して、エージェントがユーザーの暗黙的な意図をどれだけ理解できるかを評価することを目的とした新しいベンチマークであるIN3(Intention-in-Interaction)を提案した論文について解説します。
Intention-in-Interaction Benchmark
これまでのエージェントベンチマークは与えられたタスクが明確であることを前提としており、エージェントのタスク実行能力を評価することを目的としていました。
しかし実際のタスクでは、ユーザーから与えられた指示は曖昧であることが多く、例えば「Locate the best yoga class in my city(私の街で最高なヨガ教室を探して)」というタスクでは、"my city(私の街)"がどこにあるのか、"best(最高)"の基準は何なのかといった問題が生じます。
このような問題を解決するには、エージェントは不足している詳細部分を積極的に問い合わせ、ユーザーの暗黙の意図を理解する必要があります。
本論文では、LLMがこうしたユーザーの意図を明確に理解する能力を評価するためのベンチマークとして、IN3(Intention-in-Interaction)を提案しています。
IN3の概要を下図に示します。
図に示すようにIN3では、Step1として人間が描いたSeed Tasksを使ってモデルがデータセットを補強するための新しいタスクを反復的に生成します。
同時に、Step2でデータセットから次の生成ラウンドを実行するための新しい例としてのデモンストレーションをサンプリングします。
その後、Step3ではGPT-4の助けを借りて、各タスクの曖昧さ・欠落している詳細部分・各詳細部分の重要度と潜在的な選択肢に対して人間によるアノテーションを行います。
このようなステップを踏むことで、IN3は料理・芸術・プログラミングなどの何百ものカテゴリにわたる多様なエージェントタスクを提供し、タスクが明確化どうか、漠然としている場合は不足している情報の重要度に対して3段階のアノテーションを行うことを可能にしています。
先ほどの質問を例に挙げると、IN3はユーザーの住む都市に関する詳細と、bestの基準をアノテーション付きで提供し、回答の可能性を示す選択肢とユーザーの真の意図の選択肢をモデルに質問します。
Method
本論文ではIN3の提案とともに、ユーザーとエージェントのインタラクションを強化するために、エージェント設計の上流にモデルを組み込む新たな手法を提案しています。
具体的には、Mistral-Intractというインタラクションに特化したモデルを、複雑なタスクの解決のための自律エージェントシステムであるXAgentフレームワークに組み込むことで、ユーザーの具体的な意図を理解する強力なモデルを作成しました。
Metrics
本論文では、ユーザーとエージェントのインタラクションにおける人間の主観的な意図を客観的な数値に変換するために、以下に示す新しい評価指標も提案しています。
- Vagueness Judgement Accuracy: タスクの曖昧さに対するモデルの判断が、正解と一致した割合を計算する
- Missing Details Recover Rate: 異なる重要度の質問の詳細部分について、対話中にモデルによって何%が問い合わされたかを計算する
- Summary Intention Coverage Rate: ユーザーから提供された意図のうち、最終的にモデルによって何%が明示的に要約されたかを計算する
本論文では前述したメソッドと、上記の評価指標を用いてIN3に対する実験を行いました。
Experiments
本論文で行われた実験では、前述したMistral-InteractとXAgentフレームワークを統合したモデルと、既存モデルであるLLaMA-2-7B・Mistral-7B・GPT-4との比較を行いました。
実験結果は下の表のようになりました。
表より全てのオープンソースモデルの中で、Mistral-Interactが最も優れた性能を発揮していることが確認できました。
加えて表のSummary Intention Coverage Rateの値からユーザーの意図の実に96%以上を適切に要約できていることが確認でき、ユーザーの意図に基づいて包括的な要約を行う能力が特に優れていることが実証されました。
まとめ
いかがだったでしょうか。今回は、明示的なタスクの曖昧さの判定とユーザーへの問い合わせを通して、エージェントがユーザーの暗黙的な意図をどれだけ理解できるかを評価することを目的とした新しいベンチマークであるIN3(Intention-in-Interaction)を提案した論文について解説しました。
本論文での実験を通じて、IN3および提案されたモデルの有効性を実証することができ、特に提案モデルがユーザーの意図を非常に適切に汲み取ることができることが確認できました。
一方で、ユーザー特有の口調(怒りっぽい・冷静など)や応答スタイル(簡潔・冗長など)の情報をモデルにシミュレートさせたり、モデルが過去のユーザーの会話履歴にアクセスすることで個人の嗜好をより詳細に表現することができるかもしれないなど、いくつかの技術的な改善点も見られています。
これらの改善を行うことで、将来的にはLLMがユーザーをサポートする役割を超え、ユーザー自体を代替する存在になる可能性があるため、今後の進展が非常に楽しみです。
今回紹介したベンチマークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー