大規模言語モデルを活用して、自然な表情と会話の実現する「Furhatロボット」

Large language models 2024年10月13日

3つの要点
✔️ GPT-3.5を使用して人間との自然な会話を実現する会話エージェント「FurChat2」を開発
✔️ 言葉だけでなく非言語の手がかりも利用し、よりリアルな表情やジェスチャーが可能なロボットを実現
✔️ 自動音声認識、自然言語理解、自然言語生成など、多くの要素から成るシステムで自然な会話を実現

FurChat: An Embodied Conversational Agent using LLMs, Combining Open and Closed-Domain Dialogue with Facial Expressions
written by Neeraj Cherakara, Finny Varghese, Sheena Shabana, Nivan Nelson, Abhiram Karukayil, Rohith Kulothungan, Mohammed Afil Farhan, Birthe Nesset, Meriam Moujahid, Tanvi Dinkar, Verena Rieser, Oliver Lemon
(Submitted on 29 Aug 2023 (v1), last revised 30 Aug 2023 (this version, v2))
Comments: Accepted at SIGDIAL 2023 (24th Meeting of the Special Interest Group on Discourse and Dialogue), for the demo video, see this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC); Robotics (cs.RO)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

ロボティクスと人工知能の分野は目覚ましい進展を遂げ、ロボットが産業の枠を超えてさまざまな役割で活躍するようになっています。特に、受付業務を行うロボットは、オフィスやホテルなどで来訪者の対応にあたり、場所やサービスに関する情報を提供する重要な役割を果たしています。

この論文では、人間との自然な会話を実現する会話エージェント「FurChat2」を開発しています。このエージェントは、先進的な大規模言語モデルを活用し、オープンドメインとクローズドドメインの対話を自然に行うことができます。このシステムは、スウェーデンのFurhat Robotics社で開発されたFurhatロボットに適用され、デモンストレーションでは、ロボットとのより自然で直感的な会話の新たな可能性を示しています。Furhatロボットにより、言葉だけでなく、表情などの非言語的な手がかりも使って人間との対話することができます。

このシステムは、特にNational Robotariumのために設計され、訪問者との自然な会話を通じて施設に関する情報や、研究、ニュース、イベント情報を提供します。さらに、FurChat2は、プロンプトエンジニアリングを基にした情報提供や、ドメインを超えた会話、表情の生成にGPT-3.5モデルを使用しています。

ロボットと人間との対話において、適切な言語や非言語的な手がかりの使用は極めて重要であり、この点が従来のエージェントと大きく異なっています。従来のエージェントはルールベースで動作し、予めプログラムされたコマンドやキーワードに依存していたため、対話における選択の自由が限られていました。しかし、大規模言語モデルを活用したFurChat2の開発により、オープンドメインでの対話が可能になり、ユーザーにとってより自然でパーソナライズされたインタラクションが実現しています。

今後、ロボットが単なる受付役にとどまらず、多機能会話エージェントとして活躍することが期待されます。

Furhatロボット

Furhatは、Furhat Roboticsによって開発された革新的なソーシャルロボットです。このロボットは、高度な会話AIと表情を活用して人間との自然で直感的な対話を実現しています。Furhatの顔は、三次元のマスクを使用して人間の表情を模倣し、マイクロプロジェクターによってアニメーション化されています。この技術により、ロボットはよりリアルで感情的な表情を提供できます。

さらに、Furhatはモーター式のプラットフォームによって支えられており、首と頭が動き、回転やうなずきが可能です。これにより、より人間らしい動きが実現し、対話中にリアルな表情やジェスチャーが可能です。ロボットはマイクアレイとスピーカーを装備しており、人間の話し声を識別し、適切に反応することができます。

しかし、Furhatの人間のような外観は、時に「不気味の谷」現象を引き起こすことがあります。この現象は「人間は、ロボットの外見や動きが人間に近くなるほどロボットへの親愛度が高まるが、類似度があるレベルになると逆に不気味に感じる」という心理的効果です。しかし、Furhatは人間とのインタラクションを深めるための重要なステップとされています。この先進的なロボットは、その表現力と対話能力により、様々な環境での受付業務に理想的な候補となっています。

システム概要

下図は、ユーザーが話し言葉を通じてロボットと対話できる会話システムのアーキテクチャです。このシステムは、複数の重要なコンポーネントから構成されています。

ユーザーの発言をテキストに変換する自動音声認識（ASR）、テキストを処理し、解釈する自然言語理解（NLU）、対話の流れを管理するダイアログマネージャー（DM）、そして自然に聞こえる応答を生成するためのGPT-3.5を活用した自然言語生成（NLG）です。生成されたテキストは、テキストから音声への変換技術（TTS）を使用して音声に戻され、ロボットのスピーカーから出力されることで、対話が実現しています。このシステムは、ユーザーの意図に基づき関連するデータをデータベースから取得しています。

自動音声認識（ASR）では、Google Cloud Speech-to-Textモジュールが使用されています。このモジュールは、話された言葉をテキストに転写するために機械学習アルゴリズムを利用し、Furhat SDKを通じてシステムに統合されています。

ダイアログ管理はは、自然言語理解（NLU）、ダイアログマネージャー（DM）、データベースストレージの3つのサブモジュールから成り立っており、自然言語理解（NLU）は、自動音声認識（ASR）からの入力テキストを分析し、機械学習技術を用いてそれを構造化された定義セットに分解します。FurhatOSは、信頼スコアに基づいてテキストを特定の意図に分類するNLUモデルを提供します。

Furhat SDK内蔵のダイアログマネージャーは、NLUコンポーネントによって識別された意図に基づき、会話の流れを維持し、ダイアログの状態を管理します。このモジュールは、大規模言語モデルに適切なプロンプトを送信し、モデルからの応答を受け取った後、望ましい顔のジェスチャーを加えるための処理を行います。

現在の大規模言語モデルが直面している課題の一つに、事実でない内容の生成がありますが、これはユーザーの信頼を損ね、安全性に対する懸念を引き起こす可能性があります。完全には解決できないものの、カスタムデータベースを作成し、この効果を軽減しようと試みています。ここでは、National Robotariumのウェブサイトを手動でWebスクレイピングし、データベースを構築しています。適切な意図が起動された時、ダイアログマネージャーはデータベースから情報を取得し、大規模言語モデルからの応答を引き出すためにプロンプトと共に送信します。

自然言語生成（NLG）では、ダイアログマネージャーからのリクエストに基づいて応答を生成する役割を担っています。このプロセスで重要なのがプロンプトエンジニアリングで、適切な反応を引き出すために大規模言語モデルが使用されます。

このシステムでは、GPT-3.5シリーズの中でも非常に強力なモデルであるtext-davinci-003を採用しており、コストは1000トークンあたり$0.0200です。プロンプトエンジニアリングでは、ロボットの個性やアプリケーションのコンテキストを定義し、過去の対話履歴やデータベースから抽出した情報を用いて対話を形成します。

また、会話の流れに応じて適切な感情表現を行うために、絵文字も適宜組み込まれます。たとえば、喜びやユーモアが感じられる対話では笑顔のジェスチャーを、共感や悲しみを伝える対話では悲しい表情を選択します。これにより、テキストベースの大規模言語モデルが具体化されたFurhatロボットにシームレスに統合され、より自然な会話が実現します。なお、プロンプトの形式は「This is a conversation with a robot receptionist, <Robot Personality>, <Data from the Database>, <Dialogue history>, <Response Format along with sample emoticons>」のように設定されています

さらに、Furhat SDKは、特定のニーズに合わせたカスタムの顔ジェスチャーを追加できる内蔵ジェスチャーを提供しています。最新のGPTモデルを用いてテキストから感情を識別し、それに基づいて適切な感情を表現するジェスチャーを生成します。モデルからの応答を受けた後、ダイアログマネージャーは事前に設定されたジェスチャーセットから最適な表現を選び、生成された音声と同時に起動します。

テキストを音声に変換するためには、Amazon Pollyサービスを使用しています。このサービスはFurhatOSでデフォルトで提供されており、クリアで自然な音声出力を可能にします。

このようにして、ユーザーとのエンゲージメントを深めるために、先進的な技術を駆使し、Furhatロボットは自然な会話を実現しています。下図は、人間とロボット間の対話の例です。

まとめ

この論文では、受付用の会話ロボットである「FurChat」を開発しています。このロボットの会話エージェントは、オープンドメインおよびクローズドドメインの対話と顔の表情を、先進的な大規模言語モデルGPT-3.5を用いて生成します。Furhat SDKを基盤として開発されたこのシステムは、訪問者と一対一で対話する方式を採用しています。

今後の展望として、受付ロボットの開発における活発な研究領域である多方向対話を目指すとしています。また、大規模言語モデルからの不正確な生成内容、いわゆる「幻覚」問題への対策として、言語モデルの微調整を進め、自然言語理解（NLU）コンポーネントに依存しない直接的な対話生成へとシフトする計画を進行中としています。大規模言語モデルによる対話ロボットのさらなる進歩が期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。