WhisperとGPTの統合した「Pepper-GPT」によるUXの向上とスムーズなコミュニケーションの実現

Large language models 2024年11月12日

3つの要点
✔️ 技術統合によるユーザー体験の向上：Whisper ASRとGPT-3.5 APIをPepperロボットに統合することで、仮想AIと物理ロボット間のギャップを埋め、ユーザー体験が大幅に向上。Whisper ASRは特に、GoogleのASRサービスと比較して優れた性能を示し、低いワードエラーレートと迅速な処理時間を達成。
✔️ Pepper-GPTのポテンシャル：実際のユーザーによる評価では、参加者の大多数がシステムの使いやすさを高く評価し、ロボットのジェスチャーが適切であると評価。Pepper-GPTが人間とロボットのインタラクションを豊かにし、今後のHRI分野におけるさらなる可能性を持つことを示唆。
✔️ 今後の改善点：ユーザーがロボットとの対話時により良い指針を得られるようリスニングヒントの提供、多言語対応の強化、より多くの物理的アクションの設計、および顔追跡機能の強化によるユーザー体験の向上が期待される。

Does ChatGPT and Whisper Make Humanoid Robots More Relatable?
written by Xiaohui Chen, Katherine Luo, Trevor Gee, Mahla Nejati
(Submitted on 11 Feb 2024)
Comments: Published in Australasian Conference on Robotics and Automation (ACRA 2023)
Subjects: Robotics (cs.RO); Human-Computer Interaction (cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

技術が目まぐるしく進化する中、人間と機械とのやり取りをよりスムーズにすることが、今までになく重要になってきています。この挑戦に応えるために、「人間ロボット相互作用（HRI）」という新しい分野が誕生しました。テクノロジーの恩恵を受けるためには、人間と機械の効果的な対話が必須であるといわれています。

ユーザーエクスペリエンス（UX）は、機械がユーザーに与える影響、つまり使いやすさ、直感性、有用性、そして相互作用の際のフラストレーションの度合いとして定義されます。良好なUXを確保することは、ロボットが私たちの日常生活に実質的な価値をもたらすために不可欠です。

ソフトバンクロボティクスによる有名なヒューマノイドソーシャルロボット「Pepper」は、その多様なインタラクティブ機能で非常によく知られています。しかし、より人間らしいコミュニケーションを目指す場合、Pepperの現在の能力では期待に応えきれないこともあります。言語処理の遅延やエラーがユーザー体験に影響を与えることも明らかになっています。また、開発者が用意したダイアログには限界があり、ユーザーの深い質問や要望に応えることが難しいという問題があります。Pepperの音声認識機能も、自然言語を理解するには不十分であると言われています。

これらの課題に対処するために、ChatGPTのような大規模言語モデルの活用が期待されています。これらの先進的なシステムにより、より自然で文脈に合った会話が可能になり、Pepperの音声認識機能の向上にも寄与することができると考えられます。

この論文では、PepperロボットをWhisperおよびGPT APIと統合する「Pepper-GPT」システムを開発しています。また、その方法と人間との相互作用に関する実験結果を報告しています。この取り組みは、ロボットとのコミュニケーションの質を高め、人間の生活により大きな価値をもたらすことを目指しています。

手法

Pepper-GPTプロジェクトでは、人間とロボットのコミュニケーションを革新するための独自の方法論が採用されています。このプロジェクトの心臓部には「BlackBox」と「PepperController」という2つの主要な要素があります。

BlackBoxは先進的な音声認識と自然言語処理の技術を組み合わせ、ユーザーの声をテキストに変換し、意味のある応答を生成する役割を担います。これには、OpenAIのWhisper自動音声認識システムとgpt-3.5-turbo言語モデルが使用されています。一方、PepperControllerはロボットが実世界でアクションを実行するための指令を管理します。

データのやり取りには、信頼性と安定性を確保するTCP/IPプロトコルを使用したクライアントサーバーモデルが採用されています。このシステム設計により、音声入力からの応答生成までのプロセスがスムーズに行われ、人間とロボットの相互作用をより自然なものにしています。

Pepper-GPTは、AIとロボティクスの可能性を拡張することによって、単なるデジタルアシスタントを超えた、リアルタイムで対話可能なコンパニオンを実現します。このアプローチは、物理的なアクションが可能なロボットに対しても、高度なコミュニケーション能力を提供することに成功しています。

さらに、BlackBoxは、音声認識モジュールとGPTモジュールの2つのモジュールに分けることができます。これら2つのモジュールを通じて、BlackBoxはユーザーの音声入力を記録し、音声内容を認識し、GPT-3.5モデルを通じて正確なアクションコマンドまたは文脈に合った返答を生成します。生成された結果は、実行のためにPepperControllerに送られます。

音声認識モジュール

Pepper-GPTプロジェクトにおける音声認識の取り組みは、ユーザーの声を正確に解釈し、それに応じた反応を生み出すことに注力しています。このプロセスの核となるのは、３つの異なる自動音声認識（ASR）モデルのテストから選ばれたWhisper ASRシステムです。その選定理由は、堅牢性と顕著なパフォーマンスにあり、Pepperロボットの音声認識能力を格段に向上させることができる点にあります。特に、「Whisper Small」モデルは、処理速度、リソース消費、および正確性のバランスが取れており、その効率性において他のモデルよりも優れています。

音声認識モジュールは、人の声を検出すると録音を開始し、静寂を感知すると録音を停止するように設計されており、無音のオーディオが生成されるのを防ぎます。また、誤って「ありがとうございます」といったフレーズを生成し、それが不適切な応答を引き起こすことを避けるために、人の声を特定するSilero VADモデルも組み込まれています。

録音されたオーディオはファイルとして保存され、Whisper Smallモデルによってテキストに変換されます。このテキストは次に、コンテンツ分析と応答生成を担うGPTモジュールへと転送されます。しかし、Whisper Smallモデルがうまく書き起こせない場合もあり、その際はシステムが自動的にユーザーに再度話すよう促すことで、滑らかでストレスのない対話を保証しています。

GPTモジュール

Pepper-GPTプロジェクトにおけるGPTモジュールの導入は、ユーザーとロボットの間のコミュニケーションをより深く、より自然なものにすることを目的としています。このモジュールの核心は、gpt-3.5-turboモデルによる応答生成です。このモデルは、その卓越した理解力とテキスト生成能力で選ばれています。これにより、人間らしい応答を生み出し、Pepper-GPTの目標である自由度の高い会話を実現します。この技術は、ユーザーの入力を理解し、関連性のある、本物の会話を創出することで、ユーザーエクスペリエンスの質を大幅に向上させることができます。

このモジュールでは、ユーザーからのテキストが音声認識モジュールを介して受け取られた後、内容を分析し、アクションモードまたはスピーチモードへと適切に切り替えるというプロセスがあります。アクションモードでは、ユーザーのリクエストをPepperロボットが実行可能なアクションコマンドに変換します。一方、スピーチモードでは、GPTモジュールが対話者として機能し、文脈に合わせた返答を生成して会話を継続します。

しかし、誤解釈が生じる可能性もあります。この問題を解決するため、GPTモジュールにはダブルチェック機能が設けられています。この機能により、生成された応答が適切かどうかを再検討し、必要に応じて修正を加えます。これにより、Pepperロボットがユーザーのインタラクションに適切に対応できるようになります。

GPTモジュールの高度な設計は、ユーザーがPepperロボットに対して行動を要求する際、または会話を楽しむ際に、その意図を正確に捉え、適切な応答を返すことができるようにすることで、ユーザーとロボットの相互作用をさらにスムーズにします。

Pepper-GPTプロジェクトにおける「PepperController」は、Pepperロボットを動かす中枢神経のような役割を担っています。このシステムは、ロボットの動作や会話を制御することで、Pepperをより魅力的でダイナミックな存在に変えます。具体的には、Naoqi ALAnimatedSpeechエージェントが、動作と音声の両方のコマンドを実行する核心技術です。音声コマンドに関しては、PepperControllerがBlackBoxからのテキストを音声に変換し、Pepperロボットがユーザーの言葉に応じて特定のアニメーションを実行するよう設定されています。

PepperController

Pepperロボットが実行可能な全アクションは、事前にコーディングされたデータセットに保存されており、物理的なアクションコマンドに応じて適切な動作が選択されます。さらに、音声認識と応答生成のプロセス中には、Pepperが考えているかのような遷移アニメーションが実行され、インタラクションの流れをスムーズにします。

データ伝送には、BlackBoxとPepperController間で安定したデータのやり取りを保証するために、信頼性の高いTCP/IPプロトコルが用いられます。この通信プロトコルは、データが確実に送受信されるように再送機能を備えており、データの損失を防ぎます。Pepper-GPTの設計はクライアントサーバーモデルを採用し、各クライアントが特定の役割を持ち、ユーザーからの入力後には、適切なコマンドがPepperControllerに送られ、ロボットの次の動作へとつながります。

実験と結果

ここでは、選択された音声認識APIと他のAPIを比較した分析と、実験の最終結果に関する分析の2つを行っています。

まず初めに音声認識の評価を行なっています。音声認識の精度と速度を高めるため、実験前に3つの音声からテキストへのAPIを用いて2つのテストを実施しています。

精度を評価には、ワードエラーレート（WER）が採用されています。これは、システムの精度を測定するために広く用いられる指標です。WERは、言い換えエラー、削除エラー、挿入エラーの数と参照単語の総数を基に計算されます。加えて、認識時間もパフォーマンスの評価指標として使用され、これはモデルが話された言語をテキストに変換する速さを測定します。これは、即時かつ効果的な音声からテキストへの変換が求められる現実の応用において重要です。

また、データセットとして、177カ国の話者が同じ英文を発声した「Speech Accent Archive」データセットが利用されています。この多様なアクセントの範囲は、選択された音声認識モデルの適応性とパフォーマンスを評価するのに理想的です。テストには、ネイティブ英語話者の国々とネイティブでない国々/地域が含まれ、グローバルコミュニケーションにおけるその実用性が検証されています。2回目のテストでは、日常会話の対話を含む「daily-dialog」データセットを使用しています。このテストは、音声認識モデルが一般的な対話をどの程度正確に認識し、書き起こせるかを評価することを目的としています。実世界で遭遇する可能性のある5つの異なる会話シナリオが選択され、モデルが実用的な応用での性能を発揮するかが検証されています。

最初の評価では、英語を話す国々と非英語を話す国々の双方を含む、合計24のグループに分けて分析しています。3つの音声からテキストへのAPIを用いたこのテストでは、平均ワードエラーレート（WER）と平均認識時間が評価基準として採用されています。結果として、Whisperが他のAPIよりも顕著に低いWERを達成し、ほぼ完璧な精度を示したことが明らかになりました。

特に、英語を話す国々の中でアメリカが最も低いWERを記録し、一方で英国は最も高いWERを示しています。非英語を話す国々の中では、インドのアクセントが最も理解が難しく、アラビア語とフィリピン語が最も理解しやすいことが示されています。また、平均認識時間の面では、Whisperが最も短い時間で音声をテキストに変換する能力を持つことが確認されました。

2つ目のテストでは、「daily-dialog」データセットを使用し、5つの異なる会話シナリオにおける音声認識の精度と効率を評価しました。このテストの結果、Whisperが一貫して最も低いWERを達成し、最高レベルの精度を示すとともに、最短の平均認識時間を維持しています。

これらの結果を通じて、Whisperは他の音声認識APIに比べて顕著に優れたパフォーマンスを発揮し、我々の研究手法の適切性が確認されました。これにより、音声からテキストへの変換において、実世界のアプリケーションでの使用においても、高い精度と効率が求められる場面でのWhisperの有効性が示されています。

Pepperによる実験

ChatGPTをPepperロボットに統合することの意義を探るため、実際に人間が参加する試験が必要となります。オークランド大学の学生たちが、統合されたChatGPT Pepperロボットとの自由な会話に挑戦し、各セッションは15分から20分続きます。

参加者募集は、キャンパス内の掲示板にチラシを配布することで行われました。参加条件は、18歳以上で英語でのコミュニケーションが可能であることのみです。

人間参加型研究の倫理的な要件として、インフォームドコンセントが不可欠です。これにより、参加者は研究の目的やリスク、利点、そして自身の権利について完全に理解できます。参加者は「参加者情報シート」を読み、同意の上で「同意書」に署名しました。この手続きは参加者のプライバシーと機密保持を守り、研究が倫理的な基準に従って行われることを保証します。研究者は参加者の疑問に答え、彼らが研究内容を十分に理解し、参加について情報に基づいた決定を下せるよう支援しています。

実験開始前には、統合システムの機能や特徴、そしてロボットとの会話開始のためのガイドラインが説明されました。また、音声認識の精度を高めるため、参加者にはマイクロフォンが提供されます。

実験中、参加者は目の前に設置されたPepper-GPTロボットと自由に会話を楽しみ、システムはその会話をテキストに転写しました。技術的なサポートが必要な場合、研究者が室内の隅で控えていました。ロボットとの交流は、参加者の反応に応じて5分から10分で調整されています。

インタラクション終了後、参加者は2つのデジタルアンケートに回答し、年齢や性別、学部、倫理的考慮事項、そしてChatGPTとの以前の経験に関する情報を提供しました。また、ロボットとのインタラクションに関するフィードバックも収集されました。全ての参加者には、$10のギフトカードが報酬として提供されています。

定量的な結果によると、参加者は英語能力に基づいて異なる体験をしましたが、多くはChatGPTとの対話を現実的で魅力的なものとなっています。ただし、システムの直感性に関しては改善の余地があると感じた参加者もいました。全体的に、物理的なロボットの存在がChatGPTの対話を豊かにしたことが示されています。

音声認識技術の評価において、ワードエラーレート（WER）と処理時間の間に明らかな相関が見られています。特に、複雑な音韻を持つ英国のアクセントは、高いWERと長い処理時間を示す一方で、オーストラリアのアクセントはその逆の結果となっています。この傾向はすべてのケースに一貫して当てはまるわけではないものの、WERと処理時間の間に直線的な関係が存在することが示されています。

この実験では、参加者の英語習熟度が、Pepper-GPTとのインタラクションの体験に大きな影響を与えたことが明らかになりました。一般的に、Whisperの音声認識はアクセントに関わるテストで高い性能を発揮しましたが、英語の理解度が低い参加者は、ロボットが自分の意図を正確に把握するまで質問を繰り返す必要があります。

また、ChatGPTの使用経験が豊富な参加者の約30%が、時折使用する参加者に比べて、ロボットのパフォーマンスに対して高い期待を持っており、実験終了時にはシステムの機能に若干の失望を感じる傾向があります。さらに、ロボットといつ対話すべきかの判断に苦労したり、Pepperロボットの顔認識技術の精度が低いことが追加の課題となり、参加者がロボットの注目を引くために何度も試みる必要もありました。

この研究から、英語の習熟度、ユーザーの期待、インタラクションのタイミングの明確さ、Pepper-GPTの顔追跡機能が、参加者の体験に影響を及ぼすことが示されています。これらの要素は、システムの次回改版における改善点として重要であり、ユーザーの満足度とエンゲージメントの向上に寄与することが期待されます。

まとめ

この論文では、Whisper ASRとGPT-3.5 APIをPepperロボットに統合することで、仮想AIと物理ロボットの間の隔たりを減らし、ユーザー体験を大きく向上させています。ASRの性能比較からは、Whisperが最も優れた成績を収め、平均ワードエラーレート（WER）が1.716%、平均処理時間が2.639秒と、GoogleのASRサービスを上回る結果となりました。これにより、Pepper-GPTの理解力が向上しています。GPTモジュールは、ロボットが文脈に即した適切な返答を生み出し、ユーザーの指示を把握してそれに応じた行動を取れるようにすることで、インタラクションをより豊かでユーザーに魅力的なものにしています。

参加者による調査結果からは、HRI分野におけるPepper-GPTの大きな可能性が示されています。参加者の90%以上がシステムをユーザーフレンドリーだと感じ、半数以上がロボットのジェスチャーが適切だと評価されています。参加者からのポジティブなフィードバックは、Pepper-GPTを楽しんでおり、将来的にこのシステムとのさらなるインタラクションを期待していることを示しています。

今後のさらなる改善を通じて、Pepper-GPTをより自然で、効率的で、楽しいインタラクション体験へと進化させ、ユーザー体験をさらに高めることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。