赶上最新的AI论文

MerRec 是一个用于开发消费者对消费者 (C2C) 推荐系统的大型数据集,是 Mercari 面临的一项挑战

MerRec 是一个用于开发消费者对消费者 (C2C) 推荐系统的大型数据集,是 Mercari 面临的一项挑战

建议

三个要点
✔️ 开发大规模数据集 "MerRec":这是一个新的大规模数据集,用于研究和开发消费者对消费者(C2C)交易的推荐系统,以 Mercari 收集的数据为基础这有助于开发包含不同用户行为和产品特征的推荐系统,并能适应 C2C 市场的独特环境。
✔️ 开发了针对 C2C 的推荐系统 Mercatran:开发了一个新模型 Mercatran,旨在利用 MerRec 数据集进行点击率预测、基于会话的推荐和用户行为预测,以应对 C2C 的独特挑战。通过多任务学习评估了该模型的性能和实用性。
✔️ 对电子商务推荐系统的贡献:在学术研究和实际应用之间架起桥梁的研究成果,为电子商务市场未来的推荐系统提供了新的可能性。

MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems
written by Lichi LiZainul Abi DinZhen TanSam LondonTianlong ChenAjay Daptardar
(Submitted on 22 Feb 2024)
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

在新兴的电子商务时代,推荐系统在改善用户体验和提高客户参与度方面发挥着重要作用。这些系统从网上提供的大量产品和服务中为用户提供所需的信息,是电子商务的基础。

虽然企业对消费者(B2C)模式在过去一直占主导地位,但消费者对消费者(C2C)模式最近得到了扩展,并提供了新的可能性:在 C2C 模式中,单个用户有时成为卖方,有时成为买方,从而创造了一种不同于 B2C 市场的动态,在 B2C 市场中,单个用户有时是卖方,有时是买方。在 C2C 市场中,单个用户有时是卖方,有时是买方,形成了与 B2C 市场不同的动态。为了适应这种独特的环境,需要有传统 B2C 模式无法容纳的新型推荐系统。

然而,还没有任何研究对这种 C2C 模式的新颖性和复杂性进行充分建模。实际服务需求与学术研究之间存在巨大差距。为了弥补这一差距,本文开发了一个新的大规模数据集 MerRec,它有助于建立 C2C 推荐系统。

MerRec 以最大的 C2C 电子商务平台 Mercari 收集的数据为基础,详细捕捉了消费者行为和偏好的多样性。此外,该数据集还包括用户 ID、商品 ID 和会话 ID 等基本属性,以及带有时间戳的行为类型、商品类别和基于文本的商品属性等详细特征,使其成为有价值的 C2C 用户和服务特征数据源。它是深入了解 C2C 用户和服务特征的宝贵数据源。

MerRec 的设计使其能够灵活适应 C2C 市场的高度流动性。随着产品列表的不断更新,该数据集能够开发出不断适应环境变化的推荐系统。此外,还介绍了一个原型模型 "Mercatran",它提供了使用 MerRec 的初始性能基准。

MerRec 是一个通用数据集,可用于与推荐系统相关的各种任务,通过点击率预测、基于会话的推荐和多任务学习等不同任务来衡量推荐模型的性能。这为 MerRec 的实用性提供了广泛的验证。

MerRec 为 C2C 推荐系统研究提供了重要的数据来源和见解,有望进一步促进电子商务有效推荐系统的开发。

MERREC 数据集概览

Mercari 是一个消费者相互买卖产品的在线市场,用户既可以是卖家,也可以是买家。本研究的重点是分析买家的偏好,以提高 Mercari 推荐系统的准确性。

在 Mercari 上发布商品时,卖家需要更新商品的详细信息,如标题、品牌、类别、图片、运费支付方、价格和条件。卖家还可以更改产品的显示方式,信息也是动态的。

许多 Mercari 卖家并非零售商,而是不具备专业知识的普通用户,这就带来了 B2C 平台所没有的独特挑战。根据自我报告,注册信息可能包括对品牌和类别的错误描述、不完整的产品描述以及缺少尺寸和颜色等重要信息。此外,由于没有 SKU 等标准化标识符,因此很难识别产品。Mercari 上的每件产品都是独一无二的,一旦售出就无法再次购买。

MerRec 还提供各种用户界面选项,允许用户从发现产品到购买的整个过程中采取一系列用户操作,包括点击、喜欢、添加到购物车、提交报价、启动和完成交易。这些互动是用户兴趣的指标,可为 MerRec 数据集的基本分析提供有用信息。

MerRec 数据集经过精心设计,用于捕捉 Mercari 上的用户行为和产品特征。用户行为和产品特征的结合旨在深入了解用户和产品之间的关系,解决 C2C 商业模式固有的挑战,特别是产品描述的多变性和标准标识符的缺乏,并提高推荐系统在独特市场环境中的性能。

MERREC 数据集的特征

MerRec 数据集旨在成为一种资源,捕捉 Mercari 上迄今为止描述的各种用户行为和产品特征,其视角如下

产品多样性:Mercari 平台处理的产品种类繁多,为了解用户兴趣和行为提供了丰富的数据。

用户行为:涵盖广泛的用户行为,不仅包括最终购买,还包括产品浏览、喜欢、购物车添加和优惠申请。它为详细分析整个用户购买过程提供了大量数据。

产品详细信息:包括产品标题、类别、价格、状况、尺寸和颜色等详细信息。它提供了大量数据,详细说明了用户的兴趣和影响决策过程的因素。

上下文信息:每个用户行为都包含上下文信息,如行为的类型和时间。随着时间的推移,对行为模式进行分析,为详细了解用户行为提供丰富的数据。

最新性:为反映平台的最新趋势和用户兴趣,包含最新数据。这为开发符合当前市场趋势的推荐系统提供了丰富的数据。

MerRec 数据集的建立也符合法律和隐私法规,并尊重道德使用和用户保密原则。研究人员和开发人员可以放心使用该数据集,并在 MerRec 等 C2C 电子商务平台上开展有关推荐系统的学术和实践研究。

下表提供了 MerRec 数据集中的特征统计数据。

下图还显示了最粗略的产品类别中的百分比。MerRec 数据集在一定程度上集中于女性商品(女性)和玩具与收藏品(玩具与收藏品),但总体而言,MerRec 数据集的内容是均衡的,涵盖了 MerRec 中广泛的产品类别。内容均衡,涵盖类别广泛。

本文将更详细地讨论数据集组成的这个方面和其他方面。

MERREC 数据集的清理和处理

为了提高数据集的质量,对 MerRec 数据集进行了以下数据清理和处理程序。

1. 过滤用户和项目:例如,被暂停使用的账户或违反平台规则的项目。

2. 序列分割:由于在用户序列中观察到了长尾分布,长序列被分割成较短的、固定长度的片段,以规范数据结构。这一过程便于分析,但准确性受到影响,因此鼓励研究人员和开发人员在必要时重建原始序列。

3. 减少冗余:消除序列中的重复,如连续点击相同的项目。冗余减少,数据更简单。

4. 隐私保护:为保护用户隐私,某些地区的用户将被排除在外,以遵守地区法规,所有 ID 字段都用假名匿名化,时间戳以 UTC 格式标准化,从而隐藏了原始的当地时间信息。

5. SKU 替代探索:SKU 的一个新替代方法是引入一个名为 "product_id "的合成字段,该字段整合了品牌和最详细的类别 ID。虽然这种方法可以在没有 SKU 的情况下解决产品识别问题,但必须承认,在真实的市场环境中,有可能无法纳入有效推荐所需的全部细节。

实验和分析

本文使用 MerRec 数据集将各种机器学习和推荐模型应用于特定任务,并对其有效性和性能进行了评估。在此,我们将 "点击率预测 "作为本文讨论的任务之一。这是推荐系统中的一项基本任务,涉及预测用户点击某个项目的可能性。预测模型旨在根据用户交互和项目元数据,预测项目查看操作(item_view)发生时的点击率。

研究还使用滚动窗口法将数据重构为快照,使每个模型都能根据上下文进行预测。特别值得一提的是,与传统的点击率预测不同,本实验并不限制用户行为的类型,而是将各种行为都视为输入:MerRec 数据集不包括用户人口统计信息(如年龄、性别、种族),而是使用丰富的项目特征来这种方法是基于这样一种理念,即用户的兴趣和行为是相辅相成的。这种方法的理念是,它可以提供比人口统计信息更相关的信号,显示用户的兴趣可能如何通过他们在平台上的行为发生变化。

该数据集还用于涉及大量独特项目、用户、序列、会话和产品 ID 的多任务学习(MTL)任务。鉴于计算时间和资源的限制,我们选择省略全面的超参数搜索,并减少基准运行的样本数量。研究使用 MerRec 六个月数据中的第一个月,将最短输入历史窗口序列设置为七个,并对第八个项目进行二进制预测;等于八个事件的序列为一个快照行,长于八个事件的序列则作为多个快照行处理。长于八个事件的序列则使用滚动窗口作为多个快照行处理。在此设置下,对于 MerRec 中不存在的少于 8 个事件的序列,无需填充来制作更长的序列。

根据上述条件集,这个点击率预测子集包含 30,221,983 个唯一的项目、2,767,956 个唯一的用户、9,809,155 个序列和 915,453 个唯一的产品 ID。集按大约 8:1:1 的比例分割。

点击率预测是在谷歌云平台的 Linux 系统上进行的,使用的硬件是配备 8 个内核和 104 GB 内存的 Nvidia T4 GPU。测试集的性能如下表所示。

对 MerRec 数据集的测试表明,点击率预测具有挑战性,许多模型在有限的超参数调整下表现类似。其中,注意力调频模型(AFM)的表现优于其他模型。研究还表明,具有交叉网络的模型在捕捉 MerRec 中不同程度的交互时可能难以调整或表现不佳。研究结果表明了现有模型如何适应 MerRec 数据集提供的敏感和动态数据,并为 C2C 市场中推荐系统的未来研究和开发提供了潜力。

除了本文提到的点击率预测外,本文还讨论了基于会话的推荐和多任务学习。

摘要

在本文中,我们基于从 Mercari 平台收集的数据,开发了 MerRec,这是一个专门用于消费者对消费者(C2C)交易推荐系统的大型数据集。通过对该数据集的分析,我们研究了推荐系统在电子商务中的重要性及其在市场中的潜力。特别是,Mercatran 模型是为应对 C2C 中的独特挑战而设计的,它代表了推荐系统研究中的一个显著进步。

以及 MerRec 数据集和 Mercatran 模型如何捕捉 C2C 交易的动态特性,并通过多种任务(包括点击率预测、基于会话的推荐和用户行为预测的多任务学习)改善用户体验。这项研究证明了以下几点。

本文将学术研究与实际应用相结合,有望展示推荐系统在电子商务领域的未来潜力。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们