【ChatAnything】テキストからデジタルペルソナを創造する新しいフレームワーク

Large language models 2024年04月09日

3つの要点
✔️ 新しいフレームワーク「ChatAnything」の導入：テキスト入力から個性と視覚的特徴を持つペルソナを生成する新しいフレームワークを提案。
✔️ 画像生成とトーキングヘッドモデルとの統合の課題：生成された画像がトーキングヘッドモデルに適合しない問題に対処。
✔️ 将来の研究への展望：ゼロショット手法を用いた生成モデルとトーキングヘッドモデルの融合、そして、その潜在的な改善点を提示。

ChatAnything: Facetime Chat with LLM-Enhanced Personas
written by Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
(Submitted on 12 Nov 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

最近の大規模言語モデルの進展は、その卓越した一般化能力と文脈に即した学習能力により、学術界で注目の的となっています。これらのモデルは、幅広いトピックにわたる対話を促進し、ユーザーに人間のような会話体験を提供することができます。

この論文では、テキスト入力からカスタマイズされた個性、声、外見を持つ、大規模言語モデルによって強化されたペルソナを生成する新しいフレームワーク「ChatAnything」を提案しています。ユーザーが求めるターゲットに関するテキストに基づいて、独自のキャラクターを生み出すシステムプロンプトを設計することで、大規模言語モデルの文脈学習能力を高めています。さらに、テキストから音声へAPIを活用して、声の種類を作成し、ユーザーの入力に合わせて最適なトーンを選択する方法についても紹介しています。

拡散モデルを用いた画像生成技術の進化が進んでいるものの、これらの画像がトーキングヘッドモデルのソースとして適切に機能しないことが実験を通じて明らかになっています。この問題を解決するために、様々なカテゴリーから人間らしさを帯びた400のサンプルを生成、分析を行った結果、最新のトーキングヘッドモデルによって検出された生成画像はわずか30%であることが分かりました。この結果は、生成された画像が顔検出器の学習データと一致しないために生じるものであり、事前学習された顔検出器を用いる場合の改善策についても、この論文では、検討しています。

また、拡散プロセスの特性を活かし、画像編集における新たな可能性も模索しています。具体的には、視覚的外観に影響を与えずに、ゼロショット方式でランドマークの軌跡を検出可能にするピクセルレベルのランドマーク注入法を提案しています。さらに、ランドマークの保持とテキストコンセプトの融合の間のバランスに関する課題に対処し、全体の構造情報を強化するためにクロスアテンションブロックを利用しています。

この論文の主な貢献として、テキスト入力から大規模言語モデルによって強化されたペルソナを生成する新しいフレームワーク、事前学習された生成モデルとトーキングヘッドモデルの間の分布を調和させるゼロショットアプローチ、そして生成モデルとトーキングヘッドモデルの整合性を定量化する評価データセットの提案です。これらの貢献を通じて、よりリアルで個性豊かなデジタル人格の創出に向けた一歩を踏み出しています。

手法

ここではテキスト入力から大規模言語モデルによって強化されたペルソナを生成する新しいフレームワーク「ChatAnything」のパイプラインについて説明しています。概要は下図のようになっています。ChatAnythingフレームワークには、4つの主要なコンポーネントによって構成されています。

1つ目は、ユーザーからのテキストで記述されたペルソナの個性を初期化する大規模言語モデルベースの制御モジュールです。これは、ユーザーとのやり取りに基づいてシステム操作を管理し、アプリケーションを呼び出すためにも使用されています。2つ目は、ペルソナの参照画像を生成するポートレート初期化モジュールです。これには、微調整された拡散モデル（MoD）とLoRAのモジュールです。各モデルは特定のスタイルの画像を生成することに特化しています。最も適合するモデルは、ユーザーのテキストのペルソナの記述に基づいて、大規模言語モデル経由で自動的に呼び出されます。3つ目は、ペルソナからのテキスト入力をカスタマイズされたトーンの音声信号に変換する、テキストから音声へのモジュール（MoV）です。選択は大規模言語モデル経由でユーザーのテキスト記述に基づいて自動的に行われます。4つ目は、音声信号を取り込んで生成された画像を動かすモーション生成のモジュールです。

システムアーキテクチャの概要

ここでは、「ChatAnything」のシステムアーキテクチャについて説明します。システムは、以下の重要なプロセスで構成されています。

1つ目は、ガイドされた拡散プロセスです。拡散アルゴリズムを使用した画像生成は、ノイズを段階的に取り除く反復的なプロセスです。初期段階で顔のランドマークを適切に注入することで、視覚的な不具合のない画像を生成できることがわかりました。このプロセスは、特定のランドマークに焦点を当て、事前定義された外部メモリから取得したデータを基に、画像生成の初期ステップをカスタマイズしています。

2つ目は、構造的制御プロセスです。ControlNetのような最新の技術を利用して、画像生成過程におけるより細やかな制御を実現しています。このアプローチにより、顔の特徴をより精密に画像に注入することが可能となり、生成される画像は、望ましい芸術的スタイルを持ちつつ、後続の顔アニメーションアルゴリズムにも適合するようになります。

3つ目は、拡散モデルと声変更技術の組み合わせのプロセスです。特定のスタイルに特化したモデルのパフォーマンスを高めるために、Civitaiからダウンロードした様々なスタイルの拡散ベース生成モデルを組み合わせて使用しています。これにより、ユーザーの要望に基づく画像と声のカスタマイズが可能になり、よりパーソナライズされた体験を提供できます。モデルの選択は、ユーザーが提供する対象オブジェクトの記述に基づき、自動的に行われます。

4つ目は、パーソナリティモデリングのプロセスです。エージェントのパーソナリティは、ユーザーがポートレートを生成するために提供したキーワードに従って分類されます。この論文では、ユーザーが指定したさまざまなパーソナリティを特徴づけるために、大規模言語モデルを使用しています。具体的には、大規模言語モデルエージェントは、以下のプロンプトテンプレートに従う脚本家の役割としてカスタマイズされています。

このプロンプトテンプレートを使用することで、大規模言語モデルはユーザーが入力したオブジェクトの特性を関連付け、これらの属性に基づいて自由にパーソナリティを構築することができます。以下の例は、ユーザーが入力した「apple」に基づいて生成されたパーソナリティを示しています。

「ChatAnything」フレームワークは、モジュラー設計になっており、新たなスタイルの拡散ベース生成モデルや声変更技術を容易に追加できるようになっています。これにより、プロジェクトは将来的にも拡張可能であり、ユーザーのニーズに柔軟に対応することが可能です。

分析

この論文では、ガイドされた拡散技術の影響を明らかにするため、様々なカテゴリーから選択された8つのキーワードを基に検証データセットを構築しています。これらのキーワードには、リアリスティック、動物、果物、植物、オフィス用品、バッグ、服、カートゥーンが含まれています。ChatGPTを活用して、それぞれのカテゴリーに対して50個のプロンプトを生成し、これらを拡散プロセスの条件として適用しています。

顔のランドマーク検出は、事前学習された顔のキーポイント検出器を用いて実施され、顔の動きのアニメーションの質を向上させる重要な要素です。顔のランドマーク検出率を高めるために、事前学習された拡散モデルの分布を「{}のポートレート、きめ細かい顔」という形式のプロンプトで制約しています。このアプローチでは、ユーザーからの具体的な概念がプロンプトに組み込まれます。

しかし、この初期のアプローチでは十分な成果が得られませんでした。下表からわかるように、特定の概念、特にカートゥーンでは検出率が4%に留まり、平均検出率も57%と低い結果となっています。これに対して、新しく提案された「ChatAnything」では、顔のランドマーク検出率は顕著に向上し、平均で92.5%を達成しています。

この結果は、単純なプロンプト技術の限界を示すと同時に、ChatAnythingが提案する複合的なアプローチの有効性を示しています。顔のランドマーク検出率の大幅な向上は、ガイドされた拡散技術における新しい可能性を開くものであり、さらなる研究の推進に貢献することが期待されます。

まとめと将来展望

この論文では、ゼロショット手法を活用し、最新の生成モデルとトーキングヘッドモデルを融合させる初歩的な研究を紹介しています。この研究の目標は、これらの技術を組み合わせることにより、計算プロセスをより効率的にすることにあります。現在の手法は、トーキングヘッドモデルと画像生成の分野における重要な事前研究に基づいた、事前学習済みモデルの利用に重点を置いています。

しかし、さらに優れたパフォーマンスを実現する軽量な代替技術が存在する可能性も考えられます。この研究チームは、まさに取り組んでいるとしており、この進行中の取り組みが、生成モデルとトーキングヘッドモデルの将来的な統合に向けた重要な一歩を示すことになるとしています。引き続き、進展が期待されます。

なお、プロジェクトページが用意されています。デモが確認できますので、ぜひご覧ください。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。