10億人のペルソナから構築された大規模データセット、Persona Hubが登場！

persona-driven data synthesis 2024年12月19日

3つの要点
✔️ 多様性のあるsynthetic dataを作成するための新しい手法であるpersona-driven data synthesis methodologyを提案
✔️ 膨大なウェブデータから10億人のペルソナの大規模データセットであるPersona Hubを構築
✔️ Persona Hubの汎用性を実証するための様々な活用事例を紹介

Scaling Synthetic Data Creation with 1,000,000,000 Personas
written by Tao Ge,Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
(Submitted on 28 Jun 2024)
Comments: Work in progress
Subjects: Computation and Language (cs.CL); Machine Learning(cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

synthetic dataは通常の人間が生成したデータとは違い、モデルやアルゴリズムによって生成されたデータであり、大規模言語モデル(Large Language Model, LLM)の学習データに利用できるとして近年関心が高まってきています。

しかし、synthetic dataの量をスケールアップすることは用意である一方で、その多様性をスケールアップすることは困難であり、多様なsynthetic dataを作成するには多種多様なプロンプトが必要であるという課題がありました。

本稿ではこうした背景から、多様性のあるsynthetic dataを作成するための新しい手法であるpersona-driven data synthesis methodologyを提案し、膨大なウェブデータから10億人のペルソナの大規模データセットであるPersona Hubを構築し、様々な活用事例を紹介することでその汎用性を実証した論文について解説します。

persona-driven data synthesis methodology

本論文では、多様性のあるsynthetic dataを大規模に作成するために、persona-driven data synthesis methodologyという手法を提案しています。

この手法は下図に示すように、データの合成を促すプロンプトにペルソナを追加するだけで、LLMをペルソナに対応するように促し、特徴的なsynthetic dataを作成できるというアイデアに従っています。

また、ほぼ全てのLLMのユースケースを特定のペルソナと関連づけることができるため、包括的なペルソナのコレクションを構築しさえすれば、包括的なsynthetic dataを大規模に作成することが可能であり、この特性を利用することで後述するPersona Hubの構築を行いました。

Persona Hub

本論文では、膨大なウェブデータから10億人(世界人口の約13%)の多様なペルソナを含む大規模データセットであるPersona Hubを構築しました。

膨大なウェブデータからPersona Hubを構築するために、本論文ではText-to-Personaとpersona-to-Personaという2つのアプローチを提案しています。

Text-to-Persona

本アプローチは、特定の職業経験や文化的背景を持つ人は、テキストの読み書きに独特の特徴を持つという観点から、テキストから特定のペルソナを推測することができるというアイデアに基づいています。

このアイデアを基に下図に示すように、LLMに" Who is likely to [read/write/like/dislike/...] the text? "と聞くことで、任意のテキストに対応するペルソナを得ることを可能にしています。

加えて、入力するテキストによって獲得するペルソナの粒度も調整でき、下図に示すように入力テキストに詳細な情報(数学の教科者や超伝導に関する学術論文など)が含まれている場合、結果として得られるペルソナも具体的なものになります。

したがって、膨大なウェブテキストデータにText-to-Personaを適用することで、異なる粒度にわたる数十億もの多様なペルソナを得ることが可能となっています。

Persona-to-Persona

上述したText-to-Personaは、ほぼ全ての種類のペルソナをカバーする拡張性の高い手法である一方で、ウェブ上での認知度が低く、Text-to-Personaでは得られる可能性の低いペルソナが存在することも事実です。

そこで本論文では、Text-to-Personaでは獲得しにくいペルソナを補完するために、Text-to-Personaで得られたペルソナから対人関係を持つペルソナを導き出すPersona-to-Personaという手法を提案しています。

Persona-to-Personaは、下図に示すように対人関係を介して多様なペルソナを取得する手法であり、LLMに" Who is in close relationship with the given persona? "と聞くことで、例えば児子のナース(A pediatric nurse)から、患者(Patient)や同僚(Colleague)のペルソナを生成するという事を可能にしています。

本論文では、Text-to-Personaによって獲得した各ペルソナに対して、Person-to-Personaによる拡張を6回繰り返すことで、Persona Hubをより大規模かつ充実したデータセットにすることに成功しました。

Use Cases

本論文ではPersona Hubの汎用性を実証することを目的に、実社会における様々な活用事例を紹介しています。

①Knowledge-rich Texts

Persona HubはLLMのpre-trainingやpost-trainingに役立つ、知識豊富のプレーンテキストを作成する際に簡単に適用することができます。

これによって下図に示すように、Persona Hubから抽出したペルソナを適用して、LLMに専門性の高い記事を書くように促すことができます。

このプロセスをPersona Hubの10億人のペルソナに拡張することで、様々な粒度のトピックをカバーする、知識豊富で膨大なテキストを簡単に得ることが可能となります。

②Game NPCs

Persona Hubの分かりやすく実用的な応用例として、ゲームのスケールに合わせて多様なNPC(ノンプレイヤーキャラクター)を作成することが挙げられます。

LLMにゲームの背景や世界観に関する情報を提供しさえすれば、LLMがPersona Hubのペルソナをゲーム世界のキャラクターに投影するように促すことができます。

これによって、下図のように、Persona Hubのペルソナを使用してゲーム(World of Warcraft)のNPCを作成することなどができるようになり、ゲームデザインの過程でNPCを作成する労力を大幅に削減することができます。

③Tool(Function) Development

Persona Hubを使用することで、実際の様々なユーザーをシミュレートすることができ、ユーザーが必要とする可能性のあるツールを作成することが可能となります。

下図はその一例(タクシーの運転手が交通状況を確認するのを補助するツールなど)になります。

これらは単なるインターフェース定義ですが、下図に示すように簡単にコード実装に変換することが出来ます。

こうしたステップを踏むことによって、毎回ゼロからツールを構築する必要がなくなることが期待できるでしょう。

まとめ

いかがだったでしょうか。今回は、多様性のあるsynthetic dataを作成するための新しい手法であるpersona-driven data synthesis methodologyを提案し、膨大なウェブデータから10億人のペルソナの大規模データセットであるPersona Hubを構築し、様々な活用事例を紹介することでその汎用性を実証した論文について解説しました。

Persona Hubはすでに10億人のペルソナを含んでいますが、一方でこれらのペルソナは主要な側面のみに焦点を当てており、詳細な情報(家族背景や歴史的背景、人生経験など)は考慮していないという課題点もまだ残されています。

これらの情報を用いることで各ペルソナはよりユニークなものとなり、Persona Hubのスケールアップのみならず、パーソナライズされた会話のような実用的なアプリケーションの可能性も広がるため、今後の動向が非常に楽しみです。

今回紹介したPersona Hubやその活用事例の詳細は本論文に載っていますので、興味がある方は参照してみてください。

この記事に関するカテゴリー

田中侑李