
Persona Hub 是一个由十亿个角色构建而成的大型数据集,现已推出!
三个要点
✔️ 提出了一种角色驱动的数据合成方法,这是一种创建多样化合成数据的新方法
✔️ 从海量网络数据中建立了一个包含 10 亿个角色的大型数据集
建立了角色枢纽
✔️ 各种使用案例展示了角色枢纽的多功能性
Scaling Synthetic Data Creation with 1,000,000,000 Personas
written by Tao Ge,Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
(Submitted on 28 Jun 2024)
Comments: Work in progress
Subjects: Computation and Language (cs.CL); Machine Learning(cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
与普通的人工生成数据不同,合成数据是由模型和算法生成的数据,由于可用作大型语言模型(LLMs)的训练数据,因此近年来受到越来越多的关注。
然而,虽然可以扩大合成数据的数量,但很难扩大其多样性,因此需要各种各样的提示来创建多样化的合成数据。
本文提出了一种角色驱动的数据合成方法--一种创建多样化合成数据的新方法,并介绍了如何利用这种方法从大量网络数据中构建一个角色集(Persona Hub)--一个包含十亿个角色的大规模数据集。本文通过建立一个角色集,并举例说明了该方法的各种用途。
角色驱动的数据综合方法
本文提出了一种名为 "角色驱动数据合成 "的方法,用于创建大规模的多样化合成数据。
如下图所示,只要在数据合成提示中添加 "角色",就能促使 LLM 对 "角色 "做出反应,从而创造出与众不同的合成数据。
此外,由于几乎所有的 LLM 用例都可以与特定的角色相关联,因此一旦建立了一个全面的角色集合,就有可能大规模地创建综合的合成数据。下面是使用这一特性的一个例子。
角色枢纽
在本文中,我们从大量的网络数据中构建了一个 "角色枢纽"(Persona Hub),这是一个包含十亿个不同角色(约占世界人口的 13%)的大型数据集。
为了从海量网络数据中建立角色枢纽,本文提出了两种方法:文本到角色和角色到角色。
文本到人物
这种方法的基础是,鉴于具有特定职业经历和文化背景的人在阅读和写作文本时具有独特的特征,可以从文本中推断出特定的角色。
基于这一想法,如下图所示,可以向 LLM 询问"谁可能[读/写/喜欢/不喜欢/......]文本? ",从而获得与任何给定文本相对应的角色。
此外,如下图所示,可以根据输入文本的内容来调整 "角色 "的粒度:如果输入文本包含详细信息(如数学科目或超导学术论文),那么生成的 "角色 "也会更加具体。
因此,将 "从文本到角色 "技术应用于海量的网络文本数据,就有可能获得数十亿个不同粒度的各种 "角色"。
角色对角色
尽管上文提到的 "从文本到角色 "是一种可扩展的方法,几乎涵盖了所有类型的角色,但有些角色在网络上的知名度较低,通过 "从文本到角色 "的方法获得这些角色的可能性也较小。
因此,为了补充文本到角色(Text-to-Persona)中难以获得的角色,本文提出了一种称为 "角色到角色"(Persona-to-Persona)的方法,即从文本到角色(Text-to-Persona)中获得的角色推导出人际角色。
角色到角色(Persona-to-Persona)是一种通过人际关系获得各种角色的方法,如下图所示,通过询问"谁与给定的角色关系密切?"来生成 LLM 的角色,例如,一个儿童护士的角色(A儿科护士)来生成病人(患者)和同事(同事)的角色。
在本文中,通过对文本到角色(Text-to-Persona)获取的每个角色重复进行六次角色到角色扩展,成功地将角色集(Persona Hub)变成了一个更大、更丰富的数据集。
使用案例
为了展示 Persona Hub 的多功能性,本文介绍了在现实世界中使用 Persona Hub 的各种实例。
(i) 知识丰富的文本
Persona Hub 可轻松应用于创建知识丰富的纯文本,以帮助进行 LLM 前期培训和后期培训。
这样,法律硕士就可以应用从角色中心提取的角色,鼓励他们撰写具有高度专业性的文章,如下图所示。
将这一过程扩展到 Persona Hub 的 10 亿个角色中,就可以轻松获得大量知识渊博、内容丰富的文本,这些文本涵盖了不同粒度的主题。
(ii) 游戏 NPC
Persona Hub 的一个直接而实用的应用是创建各种非玩家角色(NPC),以配合游戏的规模。
只要向 LLM 提供有关游戏背景和世界的信息,就可以鼓励他们把自己在 Persona Hub 中的角色形象投射到游戏世界中的人物身上。
例如,这样就可以在游戏(魔兽世界)中使用 Persona Hub 角色创建 NPC,如下图所示,这可以大大减少在游戏设计过程中创建 NPC 的工作量。
(iii) 工具(功能)开发
Persona Hub 允许您模拟各种真实用户,并创建用户可能需要的工具。
下图是一个例子(例如,帮助出租车司机检查交通状况的工具)。
虽然这些只是接口定义,但它们可以很容易地转换成代码实现,如下图所示。
通过采取这些步骤,我们希望不必每次都从头开始构建工具。
摘要
结果如何?在这篇文章中,我们提出了一种角色驱动的数据合成方法--一种创建多样化合成数据的新方法,并从大量网络数据中构建了一个包含十亿个角色的大规模数据集--角色集、本文通过举例说明该方法的各种用途,展示了它的多功能性。
Persona Hub 已经包含了十亿个角色,但挑战依然存在:这些角色只关注关键方面,而没有考虑详细信息(如家庭背景、历史背景、生活经历等)。
这些信息的使用使每个角色都更加独特,这对未来来说非常令人兴奋,不仅因为它将使 Persona Hub 能够扩大规模,还因为它为个性化对话等实际应用提供了可能性。
本文中介绍的 Persona Hub 及其使用案例的详情可参见本文,感兴趣的读者可参阅本文了解更多信息�
与本文相关的类别