AIはファンタジー世界でロールプレイできるか、BERTと人間を比較する

論文 2020年03月04日

3つの要点

✔️最先端のAIがファンタジー世界でロールプレイできるかを検証
✔️ファンタジー世界を題材にしたテキストアドベンチャーゲームのデータセットを作成
✔️BERTはある程度人間らしく振舞うことができるが、これからの発展に期待

Learning to Speak and Act in a Fantasy Text Adventure GameA Hierarchical Location Prediction Neural Network for Twitter User Geolocation
Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, Jason Weston

テキストアドベンチャーゲームは映像や音声などを用いず、テキストのみで進行するゲームです。プレイヤーは自然文で与えられた環境や条件に基づいてキャラクターを演じ、その発言や行動を選択していくことで物語が進行していきます。近年では、複数のプレイヤーがテキストに基づいて対話を交わすことで物語を進めるテーブルトークRPG（TRPG）が人気を博しており、こうした形態のゲームに馴染みのある方も多いのではないでしょうか。

特にTRPGはプレイヤー同士の自由なやりとりが魅力的であり、プレイヤーの行動次第で様々な物語が展開していく面白さを味わうことができます。今回の記事では、こうした対話型のテキストアドベンチャーゲームにおいて、AIがプレイヤーとして人間のように振舞うことができるかを検証した論文をご紹介します。本研究はFacebook AI Reseachのメンバーが中心となっており、自然言語処理の有名な国際学会であるEMNLP2019にて発表されました。

AIはテキストアドベンチャーゲームをプレイできるか

テキストアドベンチャーゲームでは、キャラクターの性格や所持品、地理などのあらゆる情報が自然文で与えられます。本論文で対象としている対話型のゲームにおいて、プレイヤーはこうした情報を参考にしてお互いに対話を進めます。

例えば地理情報として「豪華な館のホワイエ」、登場人物とその特徴として「勇敢な王様」と「王に絶対服従する使用人」、それぞれの持ち物として王様に「王冠と王笏」、使用人に「カゴ」という条件が与えられたとします。ここでプレイヤーは各キャラクターになりきり、対話や行動の選択を行います。

下図はこの例における詳細な条件と、実際に人間のプレイヤーが交わした対話と選択した行動を示しています。プレイヤーはターン制で交互に発言と行動を行います。また、行動には具体的な動作（Action）と感情を表す所作（Emote）の二種類が存在しています。実際の対話例（下図下）より、プレイヤーは各キャラクターとして、与えられた条件のもとでなりきり（ロールプレイ）を行っていることがわかります。

それでは、このプレイヤーのうち片方をAIに置き換えることは可能なのでしょうか。ゲームによって与えられる条件や情報は全て自然文で記述されているため、自然言語処理の技術によってプレイヤーの挙動を学習することができると考えられます。具体的には、登場するキャラクター・所持品・地理などの記述、そして直前の相手プレイヤーの発言や行動をテキストデータとして入力し、次の発話や行動を出力するようなモデルを学習する方法が考えられます。

対話型ゲームをもとにしたデータセット

対話型ゲームにおけるプレイヤーの振る舞いを学習するためには、大量のデータが必要になります。そこで本論文ではクラウドソーシングによって、上図のようなファンタジー世界における対話データ例を10,777件作成しました。

データセットを作成する上で、まず「田舎」「森」などといった大まかな地理カテゴリー37種を設定し、それらをもとにして詳細な地理情報を663件作成しました。この詳細な地理情報をもとにして、その場に存在するオブジェクト3,462件と、キャラクター1,755件を作成します。キャラクターには動物やトロール、魔法使いなどが含まれており、人間に限ったものではありません。

このようにして作成した基本情報から地理情報をランダムに選択した上で、二つのキャラクターをそれぞれクラウドワーカーに割り当て、与えられた状況下での対話の収集を行いました。

本データセットの目的は、機械学習によってプレイヤーの発話と行動を状況に応じて適切に再現できるかを評価することです。データセットは訓練・検証・評価用に分割し、その内訳は下表の通りとなっています。評価用のデータはTest SeenとTest Unseenの二種類があり、前者は訓練データに含まれる地理での対話が対象となっており、後者は訓練データに含まれない対話を対象としています。つまり、Test Unseenでは「初めて経験する環境」におけるモデルの挙動について評価することができます。

なお、本論文によって作成されたデータセット「LIGHT (Learning in Interactive Games with Humans and Text)」は、リンクより利用可能です。

また、データセットに含まれる地理やキャラクターなどの詳細については、このページからAttachmentをダウンロードすることで確認できます。

AIのプレイヤーとしての実力

発話や行動の正確さは人間にまだまだ劣る

作成したデータセットを用いて学習したモデルの性能を評価します。本論文での実験では、各対話におけるキャラクターの発話（Dialogue）・行動（Action）・感情（Emote）の三つを適切に予測できるかを評価します。

正解となる自然文を全て予測することは難しいため、いずれの評価も多値分類問題として評価します。具体的には、行動と感情についてはありうる候補から一つを選択する分類問題として評価し、その正解率（Acc）を指標とします。また、発話については正解となる発話とランダムに選択した19個の負例の中から正しいものを選択できるかという分類問題として評価し、その正解率を指標とします（R@1/20）。

下表は様々な手法を用いて学習を行ったモデルの性能と、同じ問題を人間が解いた場合のスコアを示しています。表より、BERTを用いた手法が機械学習の中で性能が良いことが分かります。

表において、BERT-based Bi-Rankerは地理情報や文脈、正解候補などを独立にBERTでエンコードして正解の予測を行うモデルです。また、BERT-based Cross-Rankerは地理情報、文脈、正解候補などをまとめて一つのBERTに入力するモデルで、文脈や情報を加味しながら正解候補を吟味することができるモデルとなっています。後者は計算に多大な時間がかかりますが、前者に比べて行動を適切に選択できていることが分かります。

また、結果よりBERTを用いた手法であっても人間による正解率と比べると大きな開きがあることがわかります。特に訓練データとは異なる状況での予測が求められるTest Unseenではその差が広がっており、このタスクには大いに発展の余地があることがわかります。

BERTによる予測例

下表は、BERTを用いて学習したモデルによる行動の予測例を示しています。下表上では、対話相手が「魔法使い」役であるとき、相手の発話に対して「使用人」役のAIがどのような行動を予測したかが確認できます。「悲しい」と発話した魔法使いに対してハグを選択したりと、それなりに人間らしい振る舞いを選択できていることがわかります。

また、下表下では異なるキャラクターが同じ発話を行った時の挙動を示しています。「飲み物をもらえるか？」という発話について、発話者が魔法使いであればポーションを渡し、同じ使用人であればワインを渡し、熊であれば水を渡していることがわかります。このように、BERTを用いた学習では、相手の属性を考慮した行動の選択が可能であることが示されました。

まとめ

本記事では、テキストアドベンチャーゲームにおけるプレイヤーをAIに置き換える試みについてご紹介しました。本論文ではファンタジー世界をテーマとしたデータセットを作成し、既存の自然言語処理技術を用いてプレイヤーの振る舞いを学習し、評価を行いました。

実験で用いたBERTはWikipediaなどの現実的なデータを用いて事前学習をしているにもかかわらず、フィクションであるファンタジー世界に則した応答を予測できていることは驚きです。一方で、人間らしく適切に発話や行動を選択するという面においては、まだまだ発展の余地があることが示されました。

本研究はあくまでもある条件や環境の元での対話に焦点を当てているため、実際のテキストアドベンチャーゲームやTRPGのように「ゲーム達成などの目的に向かって行動できているか」という点については評価できていません。一方で、環境さえ固定されていればある程度人間らしく振る舞えることが示されているため、特定のマップに出現する対話可能なノンプレイヤーキャラクター（NPC）としてAIが導入される未来は遠くないかもしれません。

この技術が発展していけば、RPGなどのゲームのNPCがすべて人格を持って自由に行動、発話するAIに置き換わってしまう、という未来も遠くないのかもしれません。