![[ChatAnything] 从文本中创建数字角色的新框架](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/March2024/chatanything.png)
[ChatAnything] 从文本中创建数字角色的新框架
三个要点
✔️ 新框架 ChatAnything 介绍:提出了一个从文本输入生成具有个性和视觉特征的角色的新框架。
✔️ 图像生成与对话头像模型整合的挑战:解决生成的图像与对话头像模型不匹配的问题。
✔️ 未来研究展望:使用零镜头方法整合生成模型和对话头像模型,并提出潜在的改进方案。
ChatAnything: Facetime Chat with LLM-Enhanced Personas
written by Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
(Submitted on 12 Nov 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
大规模语言建模的最新进展因其卓越的泛化和语境学习能力而成为学术界关注的焦点。这些模型可以促进各种主题的对话,并为用户提供类似人类对话的体验。
本文提出的 ChatAnything 是一个从文本输入生成角色的新颖框架,通过大规模语言模型增强了定制的个性、声音和外表。它通过设计系统提示来增强大规模语言模型的语境学习能力,系统提示可根据用户所需的目标文本生成独特的角色。它还展示了如何使用文本到语音应用程序接口(text-to-speech API)来创建语音类型,并为用户的输入选择最合适的音调。
尽管使用扩散模型生成图像的技术在不断发展,但通过实验可以清楚地看到,这些图像并不能很好地作为人头模型的来源。为了解决这个问题,我们生成了 400 个不同类别的类人样本并进行了分析,结果发现只有 30% 生成的图像能被现代说话头像模型检测到。造成这一结果的原因是生成的图像与人脸检测器的训练数据不匹配,本文还讨论了在使用预先训练的人脸检测器时可能做出的改进。
此外,还利用扩散过程的特点,探索图像编辑的新可能性。具体来说,它提出了一种像素级地标注入方法,能够以零镜头方式检测地标轨迹,而不影响其视觉外观。此外,它还解决了与地标保留和文本概念融合之间的平衡有关的难题,利用交叉关注块来增强整体结构信息。
本文的主要贡献包括:从文本输入中生成角色的新框架,该框架由大规模语言模型增强;协调预训练生成模型和话头模型之间分布的零点方法;生成模型和话头模型之间的一致性。我们提出了一个评估数据集,用于量化生成模型和话头模型之间的一致性。通过这些贡献,我们正朝着创造更逼真、更个性化的数字人物迈进。
技术
本节将介绍 ChatAnything 的流程,这是一个通过大规模语言模型从文本输入生成角色的新框架。ChatAnything 框架由四个主要部分组成。
第一个是基于大规模语言模型的控制模块,用于初始化由用户文本描述的角色个性。第二个是肖像初始化模块,用于生成角色的参考图像。这些是微调扩散模型(MoD)和 LoRA 模块。每个模型都擅长生成特定风格的图像。根据用户的文本角色描述,通过大规模语言模型自动调用最合适的模型;第三个是文本到语音模块(MoV),它将角色输入的文本转换为定制的音调语音信号。第四个模块是动作生成模块,它接收语音信号并移动生成的图像。
系统结构概述
本节介绍 ChatAnything 的系统架构。系统由以下关键流程组成
第一种是引导扩散过程。使用扩散算法生成图像是一个迭代过程,一步一步地去除噪声。研究发现,通过在初始阶段适当注入面部地标,可以生成没有视觉缺陷的图像。该过程侧重于特定的地标,并根据从预定义的外部存储器中检索的数据定制图像生成的初始步骤。
其次是结构控制流程,利用 ControlNet 等最先进的技术对图像生成流程进行更精细的控制。这种方法可以将面部特征更精确地注入图像,从而使生成的图像既具有理想的艺术风格,又能与后续的面部动画算法兼容。
第三是将扩散模型与语音修改技术相结合的过程。为了提高特定风格模型的性能,使用了从 Civitai 下载的基于扩散生成的不同风格模型的组合。这样就可以根据用户需求定制图像和语音,提供更加个性化的体验。模型的选择是根据用户提供的目标对象描述自动进行的。
第四个是个性建模过程。根据用户提供的关键字对代理的个性进行分类,从而生成肖像。本文使用大规模语言模型来描述用户指定的不同个性。具体来说,大规模语言建模代理被定制为编剧角色,按照以下提示模板进行操作。
使用该提示模板,大规模语言模型会将用户输入的对象属性联系起来,并根据这些属性自由构建个性。下面的例子展示了根据用户输入的 "苹果 "生成的个性。
ChatAnything 框架采用模块化设计,可轻松添加新风格的基于扩散的生成模型和语音修改技术。这确保了项目在未来的可扩展性,并能灵活地适应用户需求。
分析
本文基于从一系列类别中挑选出的八个关键词构建了一个验证数据集,以确定引导式扩散技术的影响。这些关键词包括现实、动物、水果、植物、办公用品、包、衣服和卡通。利用 ChatGPT,为每个类别生成了 50 个提示,并将这些提示作为扩散过程的条件。
面部地标检测是使用预先训练好的面部关键点检测器进行的,是提高面部运动动画质量的一个重要因素。为了提高面部地标检测率,预训练扩散模型的分布受到"{}肖像,细粒度面部 "等提示形式的限制。在这种方法中,用户的特定概念被纳入到提示中。
然而,这种初步方法的结果并不令人满意。从下表可以看出,某些概念,特别是卡通的检测率仅为 4%,平均检测率低至 57%。相比之下,新提出的 ChatAnything 方法显著提高了面部地标检测率,平均检测率达到 92.5%。
结果表明了简单提示技术的局限性和 ChatAnything 提出的组合方法的有效性。面部地标检测率的显著提高为引导扩散技术开辟了新的可能性,并有望为进一步的研究做出贡献。
总结和未来展望
本文介绍了一项基本研究,该研究利用零镜头技术将最先进的生成模型和对话头模型融合在一起。这项研究的目标是将这些技术结合起来,提高计算过程的效率。目前的研究方法主要是利用预先训练好的模型,这些模型是基于之前在对话头建模和图像生成领域的重要研究成果。
不过,可以想象的是,可能有轻量级的替代技术可以提供更好的性能。研究小组表示,该技术目前仍在研究中,而这一持续的努力代表着未来将生成模型与对话头模型整合的重要一步。预计将继续取得进展。
此外,还提供一个项目页面。项目页面上有一个演示。
与本文相关的类别