機械による最適な戦略の提案：広告主の目的に合った戦略を推薦するシステムが登場

強化学習 2023年12月26日

3つの要点
✔️ 戦略レコメンダーシステムのプロトタイプをタオバオ（中国のオンラインショッピングサイト）ディスプレイ広告プラットフォームに導入しました。
✔️ さまざまな広告パフォーマンス指標に対する広告主の好みを明示的に学習し、さまざまな推奨広告戦略の採用を通じて最適化目標を学習することで、このプロトタイプシステムをさらに強化します。
✔️ 設計されたアルゴリズムが広告主の戦略採用率を効果的に最適化できることが示されました。

We Know What You Want: An Advertising Strategy Recommender System for Online Advertising
written by Liyi Guo, Junqi Jin, Haoqi Zhang, Zhenzhe Zheng, Zhiye Yang, Zhizhuang Xing, Fei Pan, Lvyin Niu, Fan Wu, Haiyang Xu, Chuan Yu, Yuning Jiang, Xiaoqiang Zhu
(Submitted on 25 May 2021 (v1), last revised 13 Jun 2021 (this version, v3))
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

オンライン広告の成功には、広告プラットフォームが広告主に最適な戦略を提案することが不可欠です。タオバオ（中国のオンラインショッピングサイト）では、戦略レコメンダーシステムを導入し、広告主のパフォーマンスとプラットフォームの収益を向上させました。この研究では、広告主の好みを学習し、異なる広告戦略を提案することで、オンライン広告の効果を高めています。コンテキストバンディットアルゴリズムを使用して、広告主の好みを学習し、戦略の採用を最大化する効果的な方法が示されました。

導入

電子商取引プラットフォームでは広告が主要な収入源であり、タオバオはインテリジェントなディスプレイ広告システムを備えています。しかし、広告主の最適な戦略が不透明であり、新規広告主が離れる傾向があります。新しい研究では、広告主向けの戦略推奨システムを開発し、製品とユーザーのマッチングに焦点を当てた直感的なアプローチを採用します。これにより、広告主の好みを考慮し、予測されたパフォーマンスに基づいて最適な広告戦略を提案します。タオバオのプラットフォームに組み込まれたプロトタイプは、新しい学習アルゴリズムを使用しています。

システム設計

まず、広告主向けの現行の広告戦略レコメンダーシステムを紹介し、広告主の好みと最適化目標を明確に定義します。次に、プロトタイプシステムの追加機能について説明します。最後に、広告戦略の推奨問題をコンテキストバンディットとして定式化し、その解決に向けた効率的なソリューションを提供します。

プロトタイプ推薦システム

タオバオディスプレイ広告プラットフォームでは、広告主向けに推奨システムを導入し、広告戦略の最適化をサポートしています。システムには、入札最適化モジュールと対象ユーザー最適化モジュールがあり、これにより広告主は特定のユーザーを対象にした入札を推奨されます。2020年のA/Bテストでは、平均収益が1.2％増加しました。ただし、システムはまだ初期段階であり、より広告主の好みや目的に基づいた推奨が必要です。提案された戦略推奨システムは、広告のパフォーマンスに焦点を当て、パーソナライズされた広告体験を提供することを目指しています。

広告戦略推薦システム

広告主向けの新しい推奨システムを強化するために、戦略推奨の問題を定式化し、新しいシステムを設計するアプローチが述べられています。具体的には、広告キャンペーンのパフォーマンスは異なるKPI（Key Performance Indicator）で定義され、広告主の好みはこれらのKPIに対する重みベクトルとして考慮されます。最適な入札戦略を推奨するために、推奨モジュールは広告主の好みを学習し、リアルタイムの入札アルゴリズムを利用します。新しいレコメンダーシステムフレームワークは、広告主の好みを学習し、広告主との相互作用に基づいて最適化目標を学習することを目指しています。この新しいアプローチにより、プラットフォームは広告主の好みに応じてパーソナライズされた広告戦略を提供でき、広告主のフィードバックを通じて効果的な最適化が行われます。

コンテキストバンディットモデリング

広告戦略の推奨をモデル化するために「コンテキストバンディット問題」を導入しています。エージェント（広告戦略推奨システム）は、広告主の広告キャンペーンごとに適切な選好ベクトルを推定し、最適な入札戦略と広告パフォーマンスを提案します。広告主の反応は報酬として扱われ、これをコンテキストバンディット問題の状態、アクション、報酬に対応づけています。エージェントは継続的に推奨し、最適な広告戦略を学ぶため、広告主の採用行動を予測し最大化することが目標です。

アルゴリズム設計

ここでは、広告戦略の推奨における難しさに対処するために、通常のコンテキストバンディットアルゴリズムの適用が難しいと述べられています。通常のアルゴリズムでは離散的な有限なアクションが扱われるが、広告戦略の場合は高次元で連続的なアクション空間（嗜好ベクトル）があり、計算時間もかかると指摘されています。この問題に対処するため、報酬学習プロセスが2つのステップに分割されています。

最初に、広告主の情報と好みの関係を構築するステップがあります。これは多層パーセプトロンモデルを使用して行われ、広告主の採用行動に基づいて嗜好ベクトルを取得します。次に、広告パフォーマンスと嗜好ベクトルの関係を確立し、これをモデル化しています。

この方法に基づいて、広告主の採用率と優先ベクトルの関係を学習し、ネットワークのアクション値（優先ベクトル w）を勾配降下法で更新するプロセスが説明されています。これにより、広告戦略の複雑な連続空間での推奨が可能になります。

アクション選択戦略

広告戦略の推奨における「探索」とは新しい選好ベクトルに基づいて戦略を提案すること、「活用」とは既存の学習済み選好ベクトルに基づいて戦略を提案することを指します。トンプソンサンプリングは、この探索と活用のトレードオフを行う効果的な手法で、ベイジアン処理を利用しています。具体的には、モデルの不確実性を表すためにドロップアウトを使用し、ニューラルネットワークにおける探索と活用のバランスを取ります。これは、ランダムな仮説検定として機能し、モデルの不確実性を考慮しながら適切な広告戦略を提案します。

実験

まずオンライン評価でプロトタイプのレコメンダシステムを検証し、次にシミュレーションで提案された広告戦略の推奨手法を幅広く評価しました。結果は以下の通りです。

(1) オンライン評価では、広告主に対する広告戦略の推奨が潜在的な利点を示し、レコメンダーシステムは広告主のパフォーマンス最適化とプラットフォーム収益増加に寄与します。
(2) 設計されたニューラルネットワークは、広告主の好みを正確に予測し、採用率を最適化するのに効果的でした。
(3) Dropoutトリックは、既存の嗜好情報の活用と新たな嗜好の探索のバランスを効果的に検証しました。
(4) アブレーション研究を通じて、バンディットアルゴリズムの一般化能力を確認しました。

オンライン評価

2020年2月以降、淘宝ディスプレイ広告プラットフォームにプロトタイプのレコメンダーシステムを導入しました。システムは入札最適化モジュール、ターゲットユーザー最適化モジュール、および広告オークションシミュレーターから構成され、広告主のリクエストに対してバンディットアルゴリズムに基づいて戦略を推奨します。2020年5月14日から27日までの実験では、実際のオンライン評価とA/Bテストを通じてシステムの性能を評価しました。結果として、広告主が推奨戦略を採用し、ARPUが1.2%増加し、広告キャンペーンのパフォーマンスが向上することが示されました。しかし、まだ課題もあり、特に広告主の推奨選択が必要であり、広告パフォーマンスの向上が改善の余地があることが指摘されました。

シミュレーション設定

ここでは、バンディットアルゴリズムの評価が機械学習よりも難しく、コストがかかるため、多くの研究がシミュレーション環境を使用してアルゴリズムの有効性を検証していることが紹介されています。具体的に、入札モジュールは予算制約下で広告パフォーマンスを最適化し、広告主モジュールは広告主の嗜好をシミュレートします。広告主の採用行動は条件付きロジットモデルに基づいてモデル化され、シミュレーション環境では推奨戦略の有用性が高い場合、広告主の採用率が高まることが説明されています。評価指標やトレーニングパラメータに関する詳細も提供され、コンテキストバンディットアルゴリズムの最適化目標やモデルの性能評価方法が説明されています。

実験結果

・広告主の広告パフォーマンス領域の調査

この実験では、淘宝網のオンライン広告環境における広告主の広告パフォーマンスを簡単に調査しました。広告主の典型的な目標として、総インプレッション、総クリック数、GMV の最大化を選択し、それぞれの広告主の嗜好をベクトルで表しました。広告オークションシミュレータでこれらの目標を最適化すると、各広告主のパフォーマンスが大幅に向上したことが実験結果からわかります。これは、広告主の選好を理解することが広告パフォーマンスの最適化において重要であることを示しています。

・比較実験結果

ドロップアウト率が異なるモデルまたはドロップアウトのないモデルを比較する比較実験を通じて、提案されたコンテキストバンディットアルゴリズムの有効性を示します。また、ランダムな優先順位を使用した推奨戦略も実装します。各実験では、エージェントは 2000 ラウンドにわたって環境と対話し、累積期待リグレアメントと累積採用率を定期的に更新します。実験結果を表 3 に示します。

表 3 から、ランダムな優先順位を持つ推奨が大幅な低下を引き起こすことが観察されます。これは戦略を推奨する際に広告主の好みを考慮する必要性を動機づけます。また、ドロップアウトトリックを使用しなくても、広告主の好みを明示的に学習するモデルは、学習モジュールを使用しない推奨戦略と比較して、蓄積される予想されるリグレスを 25.71% 削減できます。そして、ドロップアウトを適用するコンテキストバンディットアルゴリズムは、ドロップアウトを使用しないアルゴリズムよりも効果的であることもわかります。ドロップアウト率が増加するにつれて (20%、40%、60%、80% と)、モデルのパフォーマンスが最初に増加し、その後減少することが観察されます。これは、

(1) Dropout 率が低い場合、モデルは保守的な探索戦略を採用するためです。
(2) ドロップアウト率が高い場合、モデルはアクション空間を頻繁に探索するため、学習した知識を十分に活用できず、パフォーマンスが低下します。

図 4 では、さまざまな数のインタラクションにおけるさまざまなドロップアウト率を持つモデルの累積期待リグレスと累積採用率の曲線を示しています。モデルが収束した後のパフォーマンスの違いをより適切に評価するために、関数 𝑦 = 𝑙𝑜𝑔(𝑥 + 1) を使用して蓄積されたリグレスを正規化します。図 4 から、さまざまなモデルがさまざまな局所最適値に収束し、すべてのモデルにおける累積期待リグレスの増加速度が最初は低下してから収束し、累積採用率が徐々に増加してから収束することがわかります。これらすべてのモデルは、学習モジュールを持たない推奨戦略と比較して、広告主の好みをある程度学習して、レコメンダーシステムのパフォーマンスを向上させます。実験では、ドロップアウト率40%のモデルと選好関連情報を含まない同じモデル（過去の採用情報のみ）を比較し、図5に結果を示しました。結果から、嗜好関連情報を含むモデルが累積期待リグレス率と累積採用率の両方で優れており、これはモデルが広告主の好みを学習し、一般的なパフォーマンスを向上させることを示唆しています。

結論

この研究では、オンライン広告の戦略推奨に焦点を当て、A/Bテストを通じて広告主に戦略を推奨するメリットを実証しました。広告主の好みを学習し、戦略採用率を最適化するために広告主の採用行動を活用したアプローチが提案され、バンディット問題に対処するためにドロップアウトトリックが採用されました。論文は、シミュレーション実験を通じて、システムが採用率の最適化で成功を収めたことを強調しています。

この研究は非常に興味深いアプローチを取っており、オンライン広告戦略においてA/Bテストを通じた戦略推奨のメリットを示しています。特に、広告主の好みを学習し、その情報を活用して戦略採用率を最適化する手法は、広告の効果的な最適化に向けた有望な試みです。

広告主の採用行動を考慮するアプローチは、実際のビジネス状況において現実的であり、システムが広告主の意向に適応する柔軟性を高めるものと見受けられます。また、バンディット問題に対処するためのドロップアウトトリックの導入も、複雑な状況において柔軟かつ効果的な意思決定を可能にしている点が注目されます。

シミュレーション実験において、提案手法が採用率の最適化に成功したとの結果は、実用的な展開に向けた有望な成果です。ただし、実際の広告環境においてどれほど効果的であるか、現実のA/Bテストでの実証が今後の研究や実践において重要となるでしょう。研究が実用的な洞察を提供し、広告戦略の最適化に新しい道を切り拓くことが期待されます。