最新AI論文をキャッチアップ

メルカリが挑む、消費者間取引(C2C)向けレコメンドシステムの開発に向けた大規模データセット「MerRec」

メルカリが挑む、消費者間取引(C2C)向けレコメンドシステムの開発に向けた大規模データセット「MerRec」

Recommendation

3つの要点
✔️ 大規模データセット「MerRec」の開発: メルカリから収集したデータを基に、消費者間取引(C2C)向けのレコメンドシステムを研究・開発するための新しい大規模データセットを提案。多様なユーザー行動や商品特性を含み、C2Cマーケットプレイスの独特な環境に対応可能なレコメンドシステムの開発を促進。
✔️ C2C向けのレコメンドシステム「Mercatran」を開発:C2Cの独特な課題に対処するように設計された新しいモデル「Mercatran」を開発。MerRecデータセットを用いて、CTR予測、セッションベースレコメンデーション、ユーザーアクション予測のマルチタスク学習を通じてモデルの性能と実用性を評価。
✔️ eコマースにおけるレコメンドシステムに貢献: 学術的な研究と実践的な応用の架け橋となる研究成果であり、今後のeコマースのマーケットプレイスにおけるレコメンドシステムの新しい可能性を提示。

MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems
written by Lichi LiZainul Abi DinZhen TanSam LondonTianlong ChenAjay Daptardar
(Submitted on 22 Feb 2024)
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

eコマースの時代が到来する中で、レコメンデーションシステムがユーザー体験と顧客エンゲージメントの向上に重要な役割を果たしています。オンライン上で提供される膨大な製品やサービスの中からユーザーが求めるものを提供するこれらのシステムは、eコマースの土台になっていると言えます。

そして、これまではビジネスから消費者への(B2C)モデルが主流である一方で、最近では、消費者同士の取引(C2C)モデルが拡大しており、新たな可能性を秘めています。C2Cでは、一人のユーザーが時には売り手、時には買い手となることで、B2Cとは異なるダイナミックな市場を形成しています。このような独特な環境に適応するため、従来のB2Cモデルでは対応できない新しい形のレコメンデーションシステムが求められています。

しかし、このC2Cモデルの新規性や複雑性を完全にモデリングした研究はまだありません。実際のサービスのニーズと学術研究の間には大きなギャップがあります。このギャップを埋めるために、この論文ではC2Cレコメンデーションシステムの構築に有用な新しい大規模データセット「MerRec」を開発しています。

MerRecは、C2Cのeコマースプラットフォームの最大手であるメルカリが収集したデータを基に構築しており、消費者の行動や好みの多様性を詳細に捉えています。さらに、このデータセットは、ユーザーIDやアイテムID、セッションIDといった基本的な属性に加え、タイムスタンプが付与された行動タイプや製品分類、テキストベースの製品属性といった詳細な特徴も含んでおり、C2Cのユーザーとサービスの特性を深く理解するための貴重なデータソースとなっています。 

MerRecの特徴は、C2Cマーケットプレイスの高い流動性に柔軟に対応できる設計にあります。商品リストが絶えず更新される中で、このデータセットを利用することで、変化する環境に適応し続けるレコメンデーションシステムの開発が可能になります。また、MerRecを用いた初期のパフォーマンスベンチマークを提供するプロトタイプモデル「Mercatran」も紹介しています。

MerRecは、レコメンデーションシステムに関する様々なタスクに対応する多用途なデータセットです。CTR予測、セッションベースのレコメンデーション、マルチタスク学習など、異なるタスクを通じてレコメンデーションモデルの性能を測定しています。これにより、MerRecの実用性を広く検証しています。

MerRecはC2Cレコメンデーションシステムの研究における重要なデータソースと知見を提供しています。eコマースの効果的なレコメンデーションシステムの開発をさらに促すものと期待されます。

MERREC Datasetの概要

メルカリは、消費者同士が商品を売買するオンラインマーケットプレイスであり、利用者が販売者にも購入者にもなれるのが特徴です。この研究では、メルカリ内での推薦システムの精度を高めるために、特に買い手の好みの分析に焦点を当てています。

メルカリでは、商品をリストする際、販売者は商品のタイトル、ブランド、カテゴリ、画像、送料負担者、価格、状態などの詳細情報を更新する必要があります。また、販売者は商品の表示を変更することができ、情報は動的です。

メルカリの販売者の多くは小売業を営んでいるわけではなく、専門知識のない一般の利用者であるため、B2Cプラットフォームでは遭遇しない特有の課題が存在しています。自己申告であるため、登録情報には、ブランドやカテゴリの誤表記、不完全な商品説明、サイズや色などの重要な情報の不足などが見られます。また、SKUのような標準化された識別子もなく、商品の識別が難しくなっています。メルカリ上の各商品はユニークであり、一度売れると再購入はできません。

また、メルカリでは、様々なUIオプションを提供しており、商品発見から購入に至るまで、クリック、いいね、カートへの追加、オファー申請、取引の開始と完了など、利用者が様々なユーザー行動を取ることができます。これらの相互作用はユーザーの興味関心の指標となり、MerRecデータセットでの基礎分析に有用な情報を提供しています。

MerRecデータセットは、メルカリ上のユーザー行動と商品特性を捉えるために細心の注意を払って設計されています。ユーザー行動と商品特性を組み合わせることで、ユーザーと商品の関係性を深く理解し、C2Cビジネスモデルに特有の課題、特に商品説明の変動と標準識別子の欠如に対処し、独特なマーケットプレイス環境でのレコメンドシステムの性能向上を目指しています。

MERREC Datasetの特徴

MerRecデータセットは、これまで述べてきたメルカリでの多様なユーザー行動と商品特性を捉えたリソースとなるように以下の観点でデータセットを設計しています。

商品の多様性:メルカリのプラットフォームで取り扱われている幅広い商品カテゴリーを取り込み、ユーザーの興味関心と行動を理解するための豊富なデータを提供しています。

ユーザー行動:最終的な購入だけでなく、商品の閲覧、いいね、カート追加、オファー申請など、ユーザー行動を幅広く網羅しています。ユーザーの購買プロセス全体を詳細に分析するために豊富なデータを提供しています。

商品詳細:商品のタイトル、カテゴリー、価格、状態、サイズ、色などの詳細情報が含まれています。ユーザーの興味関心と決定プロセスに影響を与える要素を詳細に把握するための豊富なデータを提供しています。

文脈情報:各ユーザー行動には、行動の種類やタイミングなどの文脈情報が含まれています。行動パターンを時系列で分析し、ユーザー行動の詳細に把握するための豊富なデータを提供しています。

最新性:プラットフォームの最新トレンドとユーザーの興味関心を反映するため、最近のデータを含むようにしています。現在の市場動向に合わせたレコメンデーションシステムの開発するための豊富なデータを提供しています。 

また、MerRecデータセットは、法的およびプライバシー規制に従い、倫理的な利用と利用者の機密性の尊重して構築されています。研究者や開発者は安心してデータセットを使用し、メルカリのようなC2C eコマースプラットフォームでのレコメンデーションシステムに関する学術的および実践的な研究を進めることができます。

下表は、MerRecデータセットに含まれる特徴量の統計情報です。

また、下図は、最も粗い商品カテゴリー分類における割合を表しています。MerRecデータセットは、女性用品(Women)やおもちゃ・コレクション品(Toys & Collectibles)に若干の集中が見られますが、全体としてはメルカリで取り扱われている商品カテゴリを幅広く網羅し、バランスの取れた内容になっています。

データセットの構成については、この他の観点からも論文中で詳しく説明されています。

MERREC Datasetのクリーニングと処理

MerRecデータセットは、データセットの品質向上のため、以下の手順でデータクリーニングと処理が行われています。

1. ユーザーとアイテムのフィルタリング:利用が停止されたアカウントやプラットフォームの規則に違反するアイテムなどを排除しています。

2. シーケンスのセグメンテーション:ユーザーのシーケンスにロングテールの分布が見られたため、長いシーケンスを短く固定長のセグメントに分割し、データ構造を標準化しています。この処理は、分析しやすくするための加工ですが、正確性は損なわれるため、研究者や開発者は必要に応じて元のシーケンスを再構成することが推奨されています。

3. 冗長性の削減:連続する同一アイテムへのクリックなど、シーケンス内の繰り返しを除去しています。冗長性が減少し、データがよりシンプルになっています。

4. プライバシー保護:ユーザーのプライバシーを守るため、地域規制に準拠して特定地域のユーザーを除外し、全IDフィールドを擬似名による匿名化し、タイムスタンプをUTC形式に統一することで、元のローカルタイムの情報を隠しています。

5. SKUの代替探索:SKUに代わる新しい方法として、ブランドと最も詳細なカテゴリIDを統合した「product_id」という合成フィールドを導入しています。これは、SKUがない状況での商品識別に対応するアプローチですが、実際のマーケットプレイス環境では、効果的なレコメンドに必要な詳細な情報を完全には組み込むことができないリスクがあることは、許容する必要があります。

実験と分析

ここでは、MerRecデータセットを使用して特定のタスクに様々な機械学習モデルとレコメンデーションモデルを適用し、その効果と性能の評価しています。ここでは、この論文で取り組んでいるタスクの1つとして「CTR予測」に触れます。これは、レコメンデーションシステムにおける基本的なタスクであり、ユーザーがアイテムをクリックする可能性を予測するものです。予測モデルは、ユーザーのインタラクションとアイテムのメタデータに基づいて、アイテムの閲覧アクション(item_view)が発生するCTRを予測するように設計されています。

また、この研究では、ローリングウィンドウ法を使用してデータをスナップショットに再構築し、各モデルがコンテキストに基づいて予測できるようにしています。特に、従来のCTR予測と異なり、本実験ではユーザーのアクションの種類を限定せず、多様なアクションを入力として考慮しています。MerRecデータセットは、ユーザーの人口統計情報(例:年齢、性別、民族性)を含まない代わりに、アイテムの豊富な特徴を利用してユーザーアクションの興味関心を把握します。このアプローチは、人口統計情報よりも、プラットフォーム上の行動を通じてユーザーの興味関心が如何に変化しやすいかを示す、より関連性の高いシグナルを提供することができるという考えに基づいています。

データセットは、多数のユニークなアイテム、ユーザー、シーケンス、セッション、プロダクトIDを含むマルチタスク学習(MTL)タスクにも使用されます。計算時間とリソースの限界を考慮し、包括的なハイパーパラメータ検索を省き、ベンチマーク実行用のサンプル数を削減する選択をしています。研究ではMerRecの6ヶ月分のデータのうち、最初の1ヶ月分を使用し、最短の入力履歴ウィンドウシーケンスを7と設定し、8番目のアイテムに対する二値予測を行っています。8イベントに等しいシーケンスは1つのスナップショット行となり、8イベントより長いシーケンスはローリングウィンドウを使用して複数のスナップショット行として扱われています。この設定では、MerRecに存在しない8イベント未満のシーケンスに対して、長いシーケンスにするためのパディングは行われません。

以上の条件設定の結果、このCTR予測のサブセットには、30,221,983個のユニークアイテム、2,767,956人のユニークユーザー、9,809,155のシーケンス、915,453個のユニークなプロダクトIDが含まれ、トレーニング、バリデーション、テストセットはおおよそ8:1:1の比率で分割されています。

CTR予測は、Google Cloud Platform上のLinuxシステムで行われ、使用したハードウェアは8コアと104 GBのRAMを備えたNvidia T4 GPUです。テストセットでの性能は、下表の通りとなっています。

MerRecデータセットでのテストから、CTR予測は難易度が高く、限定的なハイパーパラメータチューニングのもとでは多くのモデルが類似した性能を示すことがわかります。特に、Attention FM(AFM)が他のモデルよりも優れた性能を示しています。また、クロスネットワークを持つモデルは、MerRec内の異なる程度の相互作用を捉える際にチューニングが難しいか、性能が低下する可能性があることが示されています。この結果は、MerRecデータセットが示す繊細でダイナミックなデータに対して、既存のモデルがどのように適応できるかを表し、C2Cマーケットプレイスにおけるレコメンドシステムの今後の研究と開発への可能性を提供していると言えます。

この論文では、この記事で触れたCTR予測のほかに、セッションベースのレコメンデーション、マルチタスク学習にも取り組んでいます。

まとめ

この論文では、メルカリのプラットフォームから収集したデータを基に、消費者間取引(C2C)向けのレコメンドシステムに特化した大規模データセット「MerRec」を開発しています。このデータセットの分析を通じて、eコマースにおけるレコメンドシステムの重要性と、マーケットプレイスにおける可能性を検証しています。特に、C2Cにおける独特の課題に対応するように設計されたMercatranモデルは、レコメンドシステムの研究における顕著な進展を示しています。

また、クリックスルーレート予測、セッションベース推薦、ユーザーアクション予測のマルチタスク学習など、複数のタスクを通じて、MerRecデータセットとMercatranモデルがC2C取引のダイナミックな性質をどのように捉え、ユーザー体験を向上させる可能性があるかを実証しています。

この論文は、学術的な研究と実践的な応用の架け橋となり、eコマースにおけるレコメンドシステムの今後の可能性を示すものと期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする