赶上最新的AI论文

机器优化策略推荐:现在已有系统可推荐符合广告商目标的策略

机器优化策略推荐:现在已有系统可推荐符合广告商目标的策略

强化学习

三个要点
✔️ 战略推荐系统的原型已部署在淘宝网(中国在线购物网站)的展示广告平台上
✔️ 通过明确学习广告商对不同广告性能指标的偏好,以及通过采用不同的推荐广告策略学习优化目标,该原型系统得到了进一步增强。

✔️ 事实证明,所设计的算法能够有效优化广告客户的策略采用率。

We Know What You Want: An Advertising Strategy Recommender System for Online Advertising
written by Liyi GuoJunqi JinHaoqi ZhangZhenzhe ZhengZhiye YangZhizhuang XingFei PanLvyin NiuFan WuHaiyang XuChuan YuYuning JiangXiaoqiang Zhu
(Submitted on 25 May 2021 (v1), last revised 13 Jun 2021 (this version, v3))
Comments: Published on arxiv.

Subjects: Information Retrieval (cs.IR); Machine Learning (cs.LG)

code:  

本文中使用的图片来自论文、介绍性幻灯片或参考这些图片制作而成。

概述

网络广告要想取得成功,广告平台必须为广告客户提供最佳策略。淘宝网(中国一家在线购物网站实施了策略推荐系统,以提高广告客户的业绩和平台收入该系统可了解广告客户的偏好,并推荐不同的广告策略,从而提高在线广告的效果。利用情境匪徒算法,展示了学习广告客户偏好和最大化策略采用的有效方法。

导言

广告是电子商务平台的主要收入来源,淘宝网拥有智能展示广告系统。然而,广告商的最佳策略并不确定,新广告商往往会离开。一项新研究为广告商开发了一个策略推荐系统,该系统采用直观的方法,重点关注产品与用户的匹配。该系统将考虑广告商的偏好,并根据预测的绩效建议最佳广告策略。嵌入淘宝平台的原型采用了一种新的学习算法。

相关研究

推荐系统

为了解决信息过载问题并向用户提供个性化服务,人们对推荐系统进行了广泛研究。考虑到用户和产品的相关性,人们使用了协同过滤、基于内容的过滤和混合过滤。然而,广告商的推荐有两点不同。首先,产品是一种抽象的广告策略,很难使用普通的功能提取进行分析。其次,广告主方面的推荐不仅要解决信息过载问题,还要优化广告效果,实现真正的绩效。

实时竞价

在实时竞价方面,针对广告商不同的广告目标,自动竞价算法的研究正在进行中。然而,在展示广告中,广告商的目标千差万别,目前对有效的广告目标还缺乏了解。这影响了实时竞价算法的性能。

系统设计

首先,介绍了目前为广告商提供的广告策略推荐系统,明确定义了广告商的偏好和优化目标。接着,介绍原型系统的其他功能。最后,将广告策略推荐问题表述为情境匪帮,并提供了解决该问题的有效方案。

原型推荐系统

淘宝展示广告平台为广告主提供推荐系统,帮助他们优化广告策略。该系统包括竞价优化模块和目标用户优化模块,可推荐广告主针对特定用户进行竞价;2020 年的 A/B 测试显示,平均收入增长了 1.2%。然而,该系统仍处于早期阶段,需要更多地根据广告商的偏好和目标进行推荐。拟议的策略推荐系统旨在提供个性化的广告体验,重点关注广告的表现。

广告策略推荐系统

为了增强面向广告商的新推荐系统,本文提出了策略推荐问题,并描述了设计新系统的方法。具体来说,广告活动的绩效由不同的关键绩效指标(KPIs)定义,而广告客户的偏好则被视为这些关键绩效指标的权重向量。为了推荐最佳竞价策略,推荐模块学习广告客户的偏好并使用实时竞价算法。新的推荐系统框架旨在根据与广告商的互动,学习广告商的偏好和优化目标。这种新方法使平台能够根据广告客户的偏好提供个性化的广告策略,并通过广告客户的反馈进行有效优化。

情境土匪建模

本文引入 "情境匪徒问题"(Context Bandit Problem)来模拟广告策略推荐。代理(广告策略推荐系统)为每个广告客户的广告活动估算适当的偏好向量,并建议最佳的投标策略和广告效果。广告客户的回应被视为一种奖励,它被映射到上下文强盗问题的状态、行动和奖励中。我们的目标是通过代理不断推荐和学习最佳广告策略,预测广告客户的采用行为并使之最大化。

算法设计

本文指出,通常的情境强盗算法很难应用于解决推荐广告策略的难题。它指出,通常的算法处理的是离散、有限的行动,而在广告策略的情况下,存在一个高维、连续的行动空间(偏好向量),这在计算上也很耗时。为了解决这个问题,奖励学习过程分为两个步骤。

第一步是建立广告主信息与偏好之间的关系。这需要使用多层感知器模型,根据广告主的采用行为获得偏好向量。下一步是建立广告主表现与偏好向量之间的关系,然后对偏好向量进行建模。

基于这种方法,描述了学习广告商采用率和优先级向量之间的关系,并通过梯度下降更新网络行动值(优先级向量 w)的过程。这使得在复杂的连续空间中推荐广告策略成为可能。

行动选择战略

在广告策略推荐中,"探索 "指的是根据新的偏好向量推荐策略,而 "利用 "指的是根据已有的偏好向量推荐策略。汤普森采样是在探索和利用之间进行权衡的有效方法,它采用贝叶斯处理法。具体来说,它通过使用丢弃来代表模型中的不确定性,从而平衡神经网络中的探索和利用。这就像一个随机假设检验,在考虑模型不确定性的同时,建议适当的广告策略。

试验

首先,在在线评估中对原型推荐系统进行了验证,随后对模拟中提出的推荐广告策略进行了广泛评估。结果如下

(1) 在线评估显示了向广告客户推荐广告策略的潜在益处,推荐系统有助于优化广告客户的表现和增加平台收入。
(2) 设计的神经网络能有效准确地预测广告客户的偏好,并优化采用率。
(3) Dropout 技巧有效测试了利用现有偏好信息和探索新偏好之间的平衡。
(4) 通过消融研究,证实了 Bandit 算法的泛化能力。

在线评估

自 2020 年 2 月起,淘宝展示广告平台引入了原型推荐系统。该系统由出价优化模块、目标用户优化模块和广告拍卖模拟器组成,根据广告主的要求,基于 Bandit 算法推荐策略。在 2020 年 5 月 14 日至 27 日的实验期间,通过实际在线评估和 A/B 测试来评估系统的性能。结果显示,广告主采用了推荐的策略,ARPU 值提高了 1.2%,广告活动的效果也得到了改善。但也有人指出,目前仍存在挑战,尤其是广告商需要选择推荐的内容,广告效果还有待提高。

模拟设置

这里需要指出的是,与机器学习相比,匪徒算法的评估更加困难,成本也更高,因此许多研究使用模拟环境来验证算法的有效性。具体来说,竞价模块在预算约束条件下优化广告效果,广告主模块则模拟广告主的偏好。广告客户采用行为的建模基于条件对数模型,该模型解释了当模拟环境中推荐策略的有用性较高时,广告客户采用行为是如何增加的。此外,还提供了有关评估指标和训练参数的详细信息,解释了情境匪徒算法的优化目标以及如何评估模型的性能。

实验结果

・研究广告商的广告业绩领域

在本实验中,我们简要调查了广告主在淘宝网络广告环境中的广告表现。我们选择了总展示量、总点击量和 GMV 最大化作为广告主的典型目标,并将每个广告主的偏好表示为一个向量。实验结果表明,在广告拍卖模拟器中优化这些目标能显著提高每个广告主的绩效。这表明,了解广告客户的偏好对于优化广告效果非常重要。

・实验结果对比

通过对不同辍学率或无辍学率模型的对比实验,证明了所提出的情境强盗算法的有效性。它还使用随机优先级实施了一种推荐策略。在每个实验中,代理与环境交互超过 2000 轮,并定期更新累积预期回归率和累积采用率。实验结果见表 3。

从表 3 中可以看出,随机偏好的推荐结果明显下降。 这说明在推荐策略时需要考虑广告主的偏好。即使不使用剔除技巧,与没有学习模块的推荐策略相比,明确学习广告主偏好的模型也能将预期累积 rigress 降低 25.71%。此外,我们还发现,与不使用下拉技巧的算法相比,使用下拉技巧的情境强盗算法更为有效。我们观察到,随着辍学率的增加(从 20%、40%、60% 到 80%),模型的性能先上升后下降。这就是

(1) 如果辍学率较低,这是因为模型采用了保守的探索策略。
(2) 如果辍学率较高,则模型探索行动空间的频率较高,从而未充分利用所学知识,导致性能不佳。

图 4 显示了不同交互次数下不同退出率模型的累积预期钻机数和累积采用率曲线。为了更好地评估模型收敛后的性能差异,使用了函数 𝑦 =𝑙𝑜𝑔(𝑥 + 1)来对累积严格压力进行归一化。从图 4 可以看出,不同的模型收敛到不同的局部最优点,所有模型的累积预期力矩增加率在收敛前最初都是下降的,累积采用率在收敛前逐渐增加。与不带学习模块的推荐策略相比,所有这些模型都通过学习一些广告主偏好来提高推荐系统的性能。在实验中,我们将辍学率为 40% 的模型与没有偏好相关信息(只有过去的招聘信息)的相同模型进行了比较,结果如图 5 所示。结果表明,带有偏好相关信息的模型在累计预期无钻机率和累计采用率方面都优于其他模型,这表明该模型学习了广告主的偏好并提高了总体性能。

结论

研究重点是在线广告的策略推荐,并展示了通过 A/B 测试向广告商推荐策略的益处。论文提出了一种学习广告客户偏好和利用广告客户采用行为来优化策略采用率的方法,并采用了一种辍学技巧来解决强盗问题。论文通过模拟实验强调了该系统在优化采用率方面取得的成功。

这项研究采用了一种非常有趣的方法,显示了在网络广告策略中通过 A/B 测试推荐策略的好处。特别是,了解广告客户的偏好并利用这些信息来优化策略采用率的方法,是一种很有前途的有效优化广告的方法。

考虑广告商采用行为的方法被认为符合实际业务情况,提高了系统适应广告商意图的灵活性。此外,为解决 "强盗 "问题而引入的 "退出 "技巧也值得一提,因为它能在复杂情况下做出灵活有效的决策。

模拟实验结果表明,所提出的方法成功优化了采用率,这对实际部署来说是一个很有希望的结果。不过,在未来的研究和实践中,重要的是要在实际的 A/B 测试中证明该方法在真实广告环境中的有效性。希望这项研究能为优化广告策略提供实用的见解并开辟新的途径。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们