PALR：大規模言語モデルを駆使したカスタマイズレコメンデーションシステム

Large language models 2024年05月31日

3つの要点
✔️ 大規模言語モデルの活用：大規模言語モデルによる自然言語処理のブレークスルーを背景に、ユーザーに合わせた高性能なレコメンデーションシステムの開発。新規アイテムの迅速な取り込み、異なるデータタイプの統合、ドメイン横断的な知識の転用などの利点を提供し、特に新しいユーザーやアイテムへの迅速な適応能力を強化。
✔️ PALRフレームワークの導入：ユーザーの行動パターンと大規模言語モデルの能力を組み合わせることでパーソナライズされたレコメンデーションを実現する新しいフレームワーク「PALR」を提案。
✔️ ファインチューニングと実験結果：大規模言語モデルにインストラクションベースのファインチューニング技術を採用し、既存の方法よりも優れたレコメンデーション性能を達成。

PALR: Personalization Aware LLMs for Recommendation
written by Fan Yang, Zheng Chen, Ziyan Jiang, Eunah Cho, Xiaojiang Huang, Yanbin Lu
(Submitted on 12 May 2023 (v1), last revised 7 Jun 2023 (this version, v3))
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

現代のeコマースからエンターテインメントまで、あらゆる業界でカスタマイズされたレコメンデーションシステムの重要性が高まっています。この動きを牽引しているのは、Bert、GPT-3、FLAN-T5などの大規模言語モデルによる自然言語処理のブレークスルーです。研究者たちは大規模言語モデルを活用してユーザーに合わせたより洗練されたレコメンデーションシステムを開発することに注目しています。伝統的なアプローチと比較して、大規模言語モデルは、新規アイテムを迅速な組み込み、複数のデータタイプの統合、ドメイン横断的な知識の転用など、顕著な利点があります。特に新しいユーザーやアイテムに迅速に適応する能力においては、既存のレコメンド手法において、コールドスタート問題としてよく知られるレコメンドシステムのボトルネックを解決する有力なものとなります。

しかし、大規模言語モデルを直接活用することは、いくつかの課題を伴います。特に、最新のアイテムデータが大規模言語モデルに組み込まれていない場合や、生成されたレコメンデーションが現実世界の状況と一致しない場合があります。また、アイテムの広範なプールから最適な選択を行うことは、その処理能力にも大きな挑戦をもたらします。

この論文では、このような課題に対応するための新しいフレームワークであるPALRを紹介しています。PALRは、ユーザーの行動パターンと大規模言語モデルの能力を組み合わせることで、パーソナライズされたレコメンデーションを実現するものです。まず、ユーザーの行動からプロファイルキーワードを生成し、これを基にアイテムの初期選定を行います。そして、選ばれた候補の中から、ユーザーの過去の行動に基づいて最終的なレコメンデーションを行います。このプロセスを通じて、大規模言語モデルをより効果的に活用し、新たなユーザーや未確認のアイテムに対しても一般化する能力を高めます。

この論文の主な成果は大きく分けて4つです。まず、ユーザー行動と大規模言語モデルを融合させた柔軟で効果的なレコメンデーションフレームワークであるPALRを提案です。次に、レコメンデーションタスクをより細かいサブタスクに分解し、大規模言語モデルの推論能力を最大限に活用しています。さらに、レコメンデーションに特化した大規模言語モデルのファインチューニングを行い、その有効性を2つの公開データセットで検証しています。最後に、これらのデータセットを用いた実験を通じて、大規模言語モデルが提供するレコメンデーションの可能性を実証しています。これらの取り組みは、よりパーソナライズされ、信頼性の高いレコメンデーションシステムの開発への道を開くものです。

概要

この論文が提案する「PALR（Personalization Aware LLMs for Recommendation）」というフレームワークの概要は、下図のようになります。これは、レコメンデーションのために、大規模言語モデルの可能性を引き出すための多段階のプロセスを採用しています。

まず自然言語によるユーザープロファイル生成のプロセスです。ユーザーが多数のアイテムとの相互作用を示し、複雑な好みを示す場合、モデルがユーザーの行動だけに基づいて正確なレコメンデーションを提供するのは困難になることがあります。このような状況では、ユーザーの好みを抽象化し、高レベルの要約とすることが有益です。そして、大規模言語モデルを活用して、ユーザーの好みの要約を生成することができます。例えば、ユーザーの音楽とテレビ視聴の履歴を分析することで、"ポップミュージック"や"ファンタジー映画"などの好みの要約を生成できます。

次は、候補の検索のプロセスです。生成された結果の幻覚と不完全さの問題に対処するため、検索モジュールを使用して知識を基盤にし、タスクに関連しない結果を除外して、大規模言語モデルによるさらなる処理のためのはるかに小さい候補プールを得ます。このフレームワークは、ユーザーの行動に基づいて学習された逐次レコメンデーションモデルなど、さまざまな検索モデルを受け入れることができ、効果的に役立つことができます。

また、アイテムのレコメンデーションのプロセスです。相互作用の履歴、自然言語ユーザープロファイル、および検索された候補を組み合わせることで、大規模言語モデルに入力できる自然言語プロンプトを作成できます。モデルは、ユーザープロファイルに最も適合する候補プールからアイテムを選択するために、その推論能力を利用します。

さらに、「ユーザープロファイル生成」と「アイテムレコメンデーション」のプロセスには、大規模言語モデルの推論能力を効果的に活用するために専用のプロンプト設計が必要です。下図は、映画レコメンデーションタスクにおける関連するプロンプト設計の例です。

さらに、調査を通じて、モデルが1) 合理的に強力なパフォーマンスを達成し、2) 検索層を認識して期待通りに検索を行うようにするためには、ファインチューニングが必要であることがわかりました。この論文では、最近の大規模言語モデルの開発で効果的であることが証明されたインストラクションベースのファインチューニング技術を採用しています。

この論文では「Recommend」と「Recommend_Retrieval」と呼ばれる2種類のインストラクションタスクを作成しています。「Recommend」タスクは、過去にユーザーが相互作用したアイテムのリスト（最大20アイテム）を含み、モデルの目的はユーザーが将来相互作用する可能性のあるアイテムのリストを生成することです。下図は、Movielensデータセット用のそのようなインストラクションの例です。このガイドでファインチューニングされたモデルを𝑃𝐴𝐿𝑅𝑣1としています。

「Recommend_Retrieval」タスクは、モデルに候補アイテムのリストからターゲットの「将来」のアイテムを取得するようにリクエストしています。候補リストには、すべてのターゲットアイテムと、ターゲットアイテムに似ている数個のネガティブアイテム（例：同じジャンルの映画、多くのユーザーによって共同視聴されたもの）が含まれています。下図は、MovielensデータセットとAmazon Beautyデータセットのファインチューニングに使用された、そのようなガイドの2つの例です。Amazon Beautyデータセットの場合、評価のためにアイテムIDを含めます。「Recommend」と「Recommend_Retrieval」の両方のガイドでファインチューニングされたモデルを𝑃𝐴𝐿𝑅𝑣2としています。

実験

ここでは逐次レコメンデーションタスクにおける新しい手法を検証するための実験設定と結果を紹介します。まず、実際のプラットフォームから収集された2つの公開データセットを使用しています。1つは「Amazon Beauty」で、1996年5月から2014年7月にかけてのAmazonでのユーザーとアイテム間の相互作用を集めたものです。もう1つは「Movielens-1M」で、100万件の映画評価を含む一般的なベンチマークデータセットです。データセットの前処理は、各ユーザーの相互作用シーケンスを得るため、重複を排除し、時系列順にソートし、「5-core」データセットを維持することで行っています。下表はデータセットの統計値です。

性能の評価には、leave-one-out戦略を用いて各ユーザーについて最後に相互作用したアイテムをテストデータとし、残りのアイテムをトレーニングに使用しています。全アイテムセット上でヒット率（HR）と正規化された割引累積ゲイン（NDCG）の2つの指標を用いて、正のアイテムの存在とランク位置情報の両方を考慮した評価を行っています。

また、フレームワークの有効性を検証するため、行列分解を利用したBPR-MF、ニューラルネットワークを使用したNCF、GRUを用いたGRU4Rec、CNNを活用したCaser、自己注意モジュールを通じてユーザーシーケンスをモデル化するSASRecといった、一連の代表的なベースラインと比較しています。実験成果は、下表のようになっています。

PALRv2モデルが、2つの主要なベンチマークデータセットにおいて既存の複数のベースラインモデルを大きく上回る成果を達成しています。特に、PALRv1とPALRv2の比較からは、候補アイテムの検索プロセスがパフォーマンスの向上に不可欠であることが明確になりました。PALRは、特定の検索アルゴリズムに依存せず、多様な検索手法との組み合わせで効率的に機能することが理想とされます。

この研究では、検索層にSASRecを採用し、その上位50のレコメンデーションを基に分析を行っています。その結果、PALRによる上位10のレコメンデーションが、SASRecの元のレコメンデーションよりも優れていることが確認されました。さらに、BERT4RecやLightGCNなど、異なるレコメンデーションアルゴリズムを用いた評価でも同様の傾向が見られました。これらの実験を通じて、ファインチューニングの重要性とその効果について深く理解することができます。

PALRv1は、過去の相互作用データを将来の相互作用可能性と関連付ける能力をある程度示しましたが、候補アイテムリストからターゲットアイテムを効果的に選択することはできませんでした。PALRv1を用いた検索試みでは、候補からランダムに選択するに過ぎないことが観察されました。対照的に、PALRv2のパフォーマンスは、ファインチューニング段階で追加の指示を組み込むことの有効性を強く示しています。この成果は、レコメンデーションシステムのさらなる発展に向けて重要な一歩となります。

まとめ

この論文では、パーソナライズされたレコメンデーションを実現するために開発された新しい生成フレームワーク「PALR」を紹介しています。PALRは、大規模言語モデルの膨大な知識と推論能力をフルに活用し、複数ステップの手法を通じて個々のユーザーに合わせたレコメンデーションを生成しています。さらに、大規模言語モデルの最新の進歩とレコメンデーションタスクへの適用可能性についても探求しています。

この研究の成果は、ただ単に競争力のある実験結果にとどまらず、レコメンデーションタスクにおける大規模言語モデルの独特なメリットを浮き彫りにしています。特に、異なる情報源からの知識をシームレスに統合できる能力や、説明可能なレコメンデーションや対話型レコメンデーションなど、より高度なレコメンデーションシナリオへの容易なアプローチが可能である点が挙げられます。

今後の研究では、大規模言語モデルの強大な機能と処理速度のバランスを見つけながら、レコメンデーションタスクにおけるさらなる活用方法を模索するとしています。大規模言語モデルは計算上の負荷が高いため、精度やカスタマイズを損なうことなくパフォーマンスを最適化し、処理遅延を低減する方法の開発が求められています。この取り組みは、より個人に合わせたレコメンデーションシステムの構築に向けた一歩となることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。