最新AI論文をキャッチアップ

生成モデルと大規模言語モデルによって進化するレコメンドシステムGen-RecSysの体系的な調査

生成モデルと大規模言語モデルによって進化するレコメンドシステムGen-RecSysの体系的な調査

Large language models

3つの要点
✔️ 生成モデルの進展により、従来のレコメンドシステムを超える性能を発揮し、ユーザーとアイテムの複雑なデータを学習・活用して新しいタスクが可能に
✔️ 大規模言語モデルの導入により、推論や学習、オープンワールド情報の活用で驚異的な性能を発揮し、個別化や会話型インターフェースの改善に寄与
✔️ パフォーマンス、公平性、プライバシー、社会的影響を考慮し、Gen-RecSysの評価に関する主要な課題を提起

A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys)
written by Yashar Deldjoo, Zhankui He, Julian McAuley, Anton Korikov, Scott Sanner, Arnau Ramisa, René Vidal, Maheswaran Sathiamoorthy, Atoosa Kasirzadeh, Silvia Milano
(Submitted on 31 Mar 2024)
Comments: 
This survey accompanies a tutorial presented at ACM KDD'24
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

生成モデルの進歩は、レコメンドシステムの進化に大きな影響を与えています。従来のレコメンドシステムは、特定のドメイン内でユーザーの好みやアイテムの特徴を捉える「狭い専門家(narrow experts)」と呼ばれるものでしたが、現在では生成モデルによって強化され、従来の手法を上回る性能を示すことが報告されています。これらのモデルは、レコメンデーションの概念と実装に革新的な方法をもたらしています。

現在の生成モデルは、ユーザーとアイテムの相互作用履歴だけでなく、テキストや画像のコンテンツも含む複雑なデータ分布を学習し、サンプリングすることができます。これにより、これらのデータモダリティが新しくインタラクティブなレコメンデーションタスクに活用されます。

さらに、ChatGPTやGeminiなどの大規模言語モデルの導入による自然言語処理の進展は、推論、コンテキスト内の数ショット学習、そして広範なオープンワールド情報へのアクセスなど、驚くべき性能を示しています。これらの広範な能力のため、事前学習された生成モデルは、個別化の強化、会話型インターフェースの改善、より豊かな説明生成など、多様なレコメンデーションアプリケーションに新しい研究の可能性を示しています。

生成モデルの核は、学習されたデータ分布をモデル化し、サンプリングする能力にあります。この性質のため、レコメンドシステムの主な適用には2つの方法があります。

1つは、直接学習されたモデル(例: VAE-CF、協調フィルタリングのための変分オートエンコーダー)です。これは、ユーザーとアイテムの相互作用データを直接学習して、ユーザーの好みを予測します。この方法では、大規模で多様な事前学習データセットを使用しません。もう1つは、事前学習されたモデルです。テキスト、画像、ビデオなどの多様なデータで事前学習されたモデルを使用して、複雑なパターン、関係、およびコンテキストを理解します。

この論文では、以下の設定で事前学習された生成モデルの適用をカバーしています。

  • ゼロおよび数ショットのプロンプティング
    • コンテキスト内学習(ICL)を使用して追加のトレーニングなしで広範な理解を行います。
  • ファインチューニング
    • 特定のデータセットでモデルを調整して、カスタマイズされたレコメンデーションを提供します。
  • 検索拡張生成(RAG)
    • 情報検索を生成モデリングと統合して、コンテキストに関連する出力を生成します。
  • 下流トレーニングのための埋め込み
    • 複雑なコンテンツ表現のために埋め込みやトークンシーケンスを生成します。
  • マルチモーダルアプローチ
    • さまざまなデータタイプを使用して、モデルのレコメンデーションの精度と関連性を向上させます。

これにより、生成モデルはレコメンドシステムの新たな可能性を切り開き、これまでにないインタラクティブでパーソナライズされたユーザー体験を提供することが期待されます。

近年、この分野での重要な進展を示す調査がいくつか発表されています。Deldjooらは、グラフベース、協調、ハイブリッド、コンテキスト認識の4つの異なるシナリオでGANベースのレコメンドシステムを探求し、Liらはレコメンドシステムのための大規模言語モデルのトレーニング戦略と学習目的を研究しています。また、Wuらはレコメンドシステムの入力トークンまたは埋め込みを生成するために大規模言語モデルを使用しています。他にも、Wangらが、AIジェネレーターを通じてコンテンツをパーソナライズし、ユーザーの指示を解釈してユーザーの好みを収集する次世代レコメンドシステム「GeneRec」を紹介するなど、活発に研究がされています。 

これらの研究は重要な洞察を提供しますが、その範囲は、大規模言語モデル 、または特定のモデルセット(GANなど)に限られています。一方で、GeneRecはパーソナライズされたコンテンツ生成に焦点を当てた包括的な調査を提供しています。

下図は、Gen-RecSysに関するこの論文の調査内容の概要です。データソース、レコメンデーションモデル、シナリオなどで分類され、それぞれのシステムの評価と課題など掘り下げています。この論文では、このような体系をもとに、Gen-RecSysの調査を行なっています。

この論文は、生成モデルとデータモダリティの広範なスペクトルを網羅し、レコメンドシステムの未来を見据えた体系的な情報を提供しています。 

生成モデルによるインタラクション駆動型レコメンデーション

インタラクション駆動型レコメンデーションは、ユーザーとアイテムのインタラクション(例:ユーザーAがアイテムBをクリックする)のみに基づく最も一般的なレコメンデーションシステムです。この設定では、テキストや視覚情報などの他のモダリティではなく、ユーザーとアイテムのインタラクションを重視し、推薦リストやグリッドの出力に注目します。ディープ生成モデル(DGMs)は、このようなシステムに対しても有用性があります。

例えば、ディープ生成モデルはユーザーとアイテムのインタラクションを拡張し、推奨のためにノイズ除去を使用し、推薦レイアウトの分布を学習するなどが可能です。ここでは、オートエンコーディングモデル、オートレグレッシブモデル、生成対敵ネットワーク(GAN)、拡散モデルなど、ユーザーとアイテムのインタラクションデータを使用した推薦タスクのためのディープ生成モデルについて調査をまとめています。

オートエンコーディングモデルは入力を再構築することを学習し、その能力によりノイズ除去、表現学習、生成タスクなどに使用されます。この中で、ノイズ除去オートエンコーディングモデルは、破損した入力から元の入力を復元することを学習します。例えば、AutoRecは部分的に観察された入力ベクトルを再構築します。また、BERTのようなモデルもノイズ除去オートエンコーディングモデルと見なされ、BERT4Recはユーザーの過去のインタラクションシーケンスでマスクされたアイテムを予測するように学習されます。

変分オートエンコーディングモデル(VAE)は、複雑な確率分布から単純な確率分布へのマッピングを学習します。変分オートエンコーディングモデルは、協調フィルタリング、シーケンシャルレコメンデーションなどで広く応用され、優れたパフォーマンスを示します。さらに、条件付きVAE(CVAE)は特定のユーザーに対する推奨リストの分布を学習し、ListCVAEやPivotCVAEのように、個々のアイテムのランキングだけでなく、推奨リスト全体を生成します。

また、オートレグレッシブモデルは、入力シーケンスが与えられた場合に、各ステップで条件付き確率分布を学習します。これらのモデルはシーケンスモデリングに使用され、セッションベースやシーケンシャルレコメンデーション、モデル攻撃、バンドルレコメンデーションなどに広く応用されます。その中で、リカレントニューラルネットワーク(RNN)は、セッションベースおよびシーケンシャルレコメンデーションにおいて次のアイテムを予測するために使用されます。例えば、GRU4Recやその派生モデルは、バスケットやバンドルレコメンデーションにおける次のセットのアイテムを予測します。

自己注意型オートレグレッシブモデルは、トランスフォーマーに基づき、リカレントユニットを自己注意と関連モジュールに置き換えたものです。これらのモデルはセッションベースやシーケンシャルレコメンデーション、次のバスケットやバンドルの予測、モデル攻撃に使用されます。自己注意型モデルは、長期依存関係を効果的に処理し、並列トレーニングを可能にする利点があります。

また、生成対敵ネットワーク(GAN)は、ジェネレータネットワークとディスクリミネータネットワークという2つの主要なコンポーネントで構成されます。これらのネットワークは競い合う学習を行い、両者の性能を向上させます。生成対敵ネットワークは、インタラクション駆動型設定で情報量の多い学習サンプルを選択するために使用されます。例えば、IRGANでは、生成的検索モデルがネガティブアイテムをサンプリングします。生成対敵ネットワークはユーザーの好みやインタラクションを合成して学習データを拡張するのに使用され、推奨リストやページ全体の推奨を生成する際にも効果的です。

さらに、拡散モデルは、2段階のプロセスを通じて出力を生成します。まず、入力を前向きプロセスでノイズに変換し、次に逆プロセスでノイズから元の入力を復元することを学習します。このモデルは、ユーザーの将来のインタラクション確率を学習し、データの希薄性や、ロングテールユーザーの問題を軽減するために有望な結果を示しています。

レコメンデーションにおける大規模言語モデル

コンテンツベースのレコメンドシステムは30年以上にわたり言語を活用してきましたが、事前学習された大規模言語モデル(LLM)の登場により、新たな段階に突入しました。大規模言語モデルの一般化されたマルチタスクの自然言語推論能力により、テキストコンテンツを利用してアイテムの特徴やユーザーの好み、インタラクション、レコメンデーションタスク、さらには外部知識までも統一的かつ解釈可能な形で表現できるようになりました。

テキストコンテンツはアイテムのタイトルや説明、レビューなどと結びついており、ユーザーの好みも自然言語で表現できます。事前学習された大規模言語モデルは、これらのテキストデータを活用する新しい方法を提供し、多くのドメインでユーザーの好みに基づくレコメンデーションやその説明を行う能力を持っています。 ここでは、レコメンドシステムにおける大規模言語モデルの進化する主要なアプローチについて、調査をまとめています。

例えば、高密度リトリーバルでは、アイテムのテキストコンテンツを文書として扱い、ユーザーが最近好んだアイテムの説明を連結してクエリを合成します。例えば、BERTやTAS-B、Condenserなどの大規模言語モデルを使用して、アイテムのランキングリストを生成します。FAISSなどの近似検索ライブラリを使用することで、非常にスケーラブルなシステムを構築できます。

ゼロショットおよび少量ショットの生成型レコメンデーションでは、市販の大規模言語モデルを使用して、ユーザーの好みを自然言語で説明するプロンプトを構築し、次に推奨するアイテムタイトルや評価を予測します。ゼロショットプロンプティングは、十分なデータがない設定でも競争力があります。

また、検索強化生成(RAG)は、大規模言語モデルの出力生成が外部の知識源から取得した情報に基づいて条件付けされる方法です。これにより、オンラインアップデートが容易になり、幻覚(誤った生成)を減らすことができます。検索強化生成は、まず検索器やレコメンドシステムを使用して候補アイテムセットを構築し、次にエンコーダーデコーダー大規模言語モデルにプロンプトを提供して候補セットを再ランキングする方法です。

さらに、大規模言語モデルの進歩により、自然言語システムによるユーザー対話が実現可能となり、会話型レコメンデーション(ConvRec)の可能性も広がっています。ConvRecでは、対話管理、レコメンデーション、説明、QA、批評、好みの引き出しなど、さまざまな会話要素を統合します。一部の研究では、GPT-4のようなモノリシックな大規模言語モデルを使用して自然言語の対話を促進し、対話やインタラクション履歴に基づいてアイテムレコメンデーションを生成します。

大規模言語モデルの力を活用することで、より高度でパーソナライズされたレコメンデーションシステムが実現されることが期待されます。 

ジェネレーティブ・マルチモーダル・レコメンデーションシステム

近年、ユーザーは単なるテキストや画像検索以上の、より豊かなインタラクションを求めるようになっています。例えば、希望する商品の写真と「この写真のドレスの赤いバージョン」といった自然言語の指示を組み合わせたり、自分に似合う衣服や部屋に置いた場合の家具の見た目を視覚化して推奨内容を確認したりといった具体例があります。これらの高度なインタラクションには、各モダリティ(テキスト、画像など)に隠されたユニークな属性を発見できる新しいレコメンデーションシステムが必要です。

なぜマルチモーダルレコメンデーションが必要なのか?小売業者は製品説明、画像や動画、顧客レビュー、購入履歴などの多様な情報を持っていますが、従来のレコメンデーションシステムは各情報源を独立して処理し、結果を融合するアプローチを採用しています。この方法では、顧客のニーズを十分に満たせないことが多くあります。

例えば、コールドスタート問題では、ユーザーの行動データが不足しているために新しい顧客や製品を推奨できない場合、多様な情報を活用して新しい製品や顧客に適した推奨を行うことが求められます。また、「リビングルーム用の$300以下の金属とガラスの黒いコーヒーテーブルを探しています」というリクエストに応えるためには、商品の見た目や形状を他の部屋の物と関連付けて考える必要があります。このような要求はテキストや画像のどちらか一方だけでは対応できません。

さらに、ユーザーが提供する商品画像や音声(例:サウンドクリップに似た曲)とテキストの修正指示を組み合わせたリクエストや、補完的な関連商品(例:写真の自転車用のキックスタンド)などもマルチモーダル理解が重要です。また、バーチャル試着機能やインテリジェントな対話型ショッピングアシスタントなど、複雑な出力を伴うレコメンデーションシステムにもマルチモーダルによる理解が必要です。

しかし、マルチモーダルレコメンデーションシステムの開発にはいくつかの課題があります。まず、マルチモーダルデータを収集するのはユニモーダルデータよりも困難であり、アノテーションが不完全な場合があります。また、異なるデータモダリティを効果的に組み合わせるのは難しいです。例えば、既存のコントラスト学習アプローチは各データモダリティを共通の潜在空間にマッピングしますが、補完的な情報を見逃すことがあります。

さらに、マルチモーダルモデルの学習には大量のデータが必要です。これらの課題にもかかわらず、最近の研究では、効果的なマルチモーダルな生成モデルを実現するための進展が見られます。具体的には、大規模言語モデルと拡散モデルを使用した合成データの生成、高品質なユニモーダルエンコーダーとデコーダー、共有空間への潜在空間の整合技術、効率的な再パラメータ化および学習アルゴリズム、学習された潜在空間に構造を注入する技術などがあります。

マルチモーダルによる生成モデルの学習には、各モダリティの潜在表現を学習し、それらが整合していることを保証する必要があります。この課題に対処するために、まず複数のモダリティ間の整合を学習し、その後「よく整合した」表現上で生成モデルを学習する方法があります。

代表的なコントラスト学習アプローチはCLIPとALBEFです。CLIPは画像と関連するテキストを並列のエンコーダーを用いて同じ埋め込み空間に投影します。ALBEFは、CLIPを拡張し、テキストと画像の埋め込みを融合するマルチモーダルエンコーダーを使用します。ALBEFは少ない画像で事前学習しながら、ゼロショットおよびファインチューニングされたマルチモーダルベンチマークで優れた結果を示しています。

コントラストベースの整合は、印象的なゼロショット分類および検索結果を示しており、物体検出、セグメンテーション、アクション認識など多くのタスクに成功しています。同じ整合目標は他のモダリティ間でも使用されており、同時に複数のモダリティで使用されています。

マルチモーダルデータを活用したレコメンデーションシステムは、ユーザーによりリッチで精度の高い推薦を提供します。この論文では、生成モデルを用いたマルチモーダルレコメンデーションシステムの代表的なアプローチを紹介しています。 1つ目は、マルチモーダルVAEです。変分オートエンコーダー(VAE)はマルチモーダルデータに直接適用可能ですが、大規模なデータセットで学習されたモダリティ固有のエンコーダーとデコーダーを利用する方が効果的です。画像とテキストの両方の入力を処理し、潜在空間をモダリティごとに分割する方法が一般的です。例えば、ContrastVAEは各モダリティの潜在表現間にコントラスト損失を追加し、データの不確実性と希少性に対処しつつ、潜在空間の摂動に対しても堅牢です。

2つ目は、拡散モデルです。これは画像生成の最先端技術であり、テキスト生成にも利用可能です。例えば、DALL-EはCLIPの埋め込み空間を基に新しい画像を生成し、Stable Diffusionはパーセプチュアル損失とパッチベースの敵対的目的を用いて学習されたUNetオートエンコーダーを使用します。これにより、生成結果の制御可能性や一貫性が向上し、仮想試着などのアプリケーションに応用されています。

3つ目は、マルチモーダル大規模言語モデル(MLLM)です。これは、ユーザーが複数のモダリティでクエリを表現し、異なるモダリティで応答を表示する自然言語インターフェースを提供します。識別的に事前学習されたエンコーダーとデコーダーを接続し、ユニモーダルな表現が整合するように適応層を用います。例えば、Llavaはテキストと画像の両方の入力を受け入れ、有用なテキスト応答を生成します。マルチモーダル大規模言語モデルの研究は始まったばかりですが、すでにレコメンデーションアプリケーションに利用されています。

生成的マルチモーダルレコメンドシステムは、ユーザー体験を大幅に向上させる可能性があります。これらの技術は、将来的にますます重要な役割を果たすことが期待されます。

影響と危害の評価

レコメンドシステムの評価は、多面的で複雑です。これらのシステムは、多数のレコメンドモデルや他の機械学習および非機械学習のコンポーネントから構成されるため、個々のモデルの性能を評価することが困難です。さらに、レコメンドはユーザーの体験や行動に広範な影響を与えるため、その影響を定量化することも難しい課題です。特に、Gen-RecSys(生成レコメンドシステム)の導入により、評価のプロセスがさらに複雑化しています。 レコメンドシステムの評価には、システムの性能と能力に加え、安全性や社会的危害の可能性も含めて評価することが重要です。ここでは、評価の主要なポイントをレビューし、評価指標と未解決の課題、そして将来の研究方向について、調査しています。 まず、オフラインでの影響評価です。モデル評価の一般的なアプローチは、オフライン環境での精度と効率を理解し、その後、ライブ実験を行います。

識別タスクに使用される一般的な指標として、recall@k、precision@k、NDCG@k、AUC、ROC、RMSE、MAEなどがあります。生成タスクでは、自然言語処理の技術が有用です。例えば、BLEUスコアは説明やレビュー生成に、ROUGEスコアは要約評価に使用されます。perplexityも、言語モデリングの適正評価に有用です。また、生成レコメンドモデルの学習と推論の効率を評価することも重要です。これは今後の研究分野とされています。

ベンチマークも重要です。識別レコメンドモデルで人気のあるベンチマークデータセット(Movielens、Amazon Reviews、Yelp Challengeなど)は、生成レコメンドモデルにも有用です。しかし、ReDialやINSPIREDなどの最近のデータセットは、会話型レコメンデーションに特化しています。新しいタスクに対応するために、新たなベンチマークの開発が求められます。

次に、オンラインおよび長期的評価です。オフライン実験はモデル間の相互依存性や他の要因を考慮しきれないため、A/Bテストが必要です。エージェントを用いたシミュレーションも有効です。短期的な影響だけでなく、収益やエンゲージメントなどのビジネス指標を用いて長期的な影響を理解することも重要です。

他にも、会話型レコメンデーションの評価には、BLEUやperplexityが有用です。タスク固有の指標や目標固有の指標で補完されるべきです。強力な大規模言語モデルは審査員として機能しますが、人間による評価が最終的には重要です。CRSLabなどのツールキットがこのプロセスを支援します。 Milanoらは、レコメンドシステムに関連する危害を6つのカテゴリー(コンテンツ、プライバシー侵害、人間の自律性への脅威、透明性、フィルターバブル、公平性)に分類しています。生成モデルは新たな課題を提示します。大規模言語モデルのバイアス、環境への影響、人間労働者の置き換えなどが挙げられます。

オフライン指標、オンラインパフォーマンス、危害に関するレコメンドシステムの評価は困難です。異なるステークホルダー間で評価アプローチが異なるため、さらなる研究とツールの開発が求められます。HELMベンチマークを参考にした包括的な評価フレームワークの設計が望まれます。

このように、レコメンドシステムの影響と危害の評価には多面的な視点が必要です。精度や効率だけでなく、安全性や社会的影響を考慮した評価が求められます。今後の研究と新しいベンチマークの開発が、レコメンドシステムの進化に寄与すると考えられます。

まとめ

この論文は、レコメンドシステムにおける生成モデルの多様性と可能性を探求するために調査を行なったものです。 これまで述べてきたように。レコメンドシステムの応用とその評価はますます複雑化していますが、この調査が、この分野の発展に寄与することが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする