機械学習におけるDelayed Feedbackの改善が売り上げを改善する
3つの要点
✔️ 正解ラベル観測が遅延するDelayed Feedbackの状況をデータのバイアスとして定義
✔️ データのバイアスが削減されるようなImportance Weightを用いた損失を提案
✔️ 実プロダクトで導入してABテストを行い結果売り上げの増加に寄与
A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback
written by Shota Yasui, Gota Morishita, Komei Fujita, Masashi Shibata
(Submitted on 6 Feb 2020)
Comments: Published by The Web Conference 2020(WWW '20)
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
企業紹介
CyberAgent 「AI Lab」ではマーケティング全般に関わる幅広い人工知能技術を研究開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取組むとともに、産学連携によって培ってきた技術を当社のビジネス課題と結びつけるような、より実践的な研究開発を行っています。このような背景のもと、これまで「AI Lab」にて培ってきた因果推論と機械学習の融合に関する知見を元に提案した手法を「Dynalyst」の広告配信技術へ応用し、実際に広告配信が効率化された結果を示した研究論文が「The Web Conference 2020」に採択されました。
はじめに
機械学習の実ビジネスの応用において、モデルを日々更新し続けるといった運用が行われることは少なくありません。このモデル更新の運用は多くの場合、より新しいデータを使ってモデルを学習した方が精度が向上するという経験則に基づいています。
購買予測とDelayed Feedback
インターネット広告におけるクリックや購買の確率予測においてもこのような運用はよく行われています。しかし、商品の購入の場合、広告のクリックした直後に商品が購入されるわけではなく、数分から長いときには1週間ほどの時間が掛かります。購買の確率予測を行う場合には、広告のクリックに紐づいた購買の有無を予測することになります。よって、正解ラベルが遅れて観測されるという状況になります。このような状況はDelayed Feedbackと呼ばれています。
Delayed Feedbackイメージ図
Delayed Feedbackは学習データにバイアスを発生させるという問題が存在します。モデルを日々更新し続ける場合、モデルを更新する直前に教師データを作成することになります。そして、教師データが作成される直前に発生したクリックに関してはDelayed Feedbackによって購買がまだ観測されてないという状況になります。この場合、本来は購買するデータとして扱われるべきサンプルが、購買しないデータとして扱われることになります。
これに対して特に対策を行わない場合、予測モデルは本来の購買確率を下回る予測を行う傾向となり、結果的に予測精度を低下させることになります。これにより予測性能が低下することになり、広告配信の機会を逸することになります。
図1 時間間隔でCVRの変化
実験で利用したCriteo Datasetにおいては、clickから24時間以内に観測される購買は全体の50%程度であり、学習データの多くの部分がdelayed feedbackの影響を受けていることがわかります。
図2. Criteo Datasetにおけるキャンペーンごとの周期性
また広告におけるdelayed feedbackには3つの特徴が存在しています。
1つは観測の遅れに周期性が存在する点です。これは広告をクリックしたユーザーが一度ブラウジングを中止し、次の日の同じ時間帯に再びブラウジングを再開して購買を行うといった傾向によるものです。2つ目はdelayの強弱が商品によって異なるという点です。これは少額の商品と高額の商品ではユーザーが購買の検討にあてる時間が違うといった点に基づいています。3つ目は購買の観測期間に打ち切りが存在するという点です。これは各広告主が広告のクリックから何日以内に購買が起きなければ、広告による購買として考慮しないかを設定していることに基づいています。
Importance Weightを使った改善
Delayed Feedbackの問題は、本来購買するデータとして扱われるべきサンプルが、購買されないデータとして扱われてしまうという問題です。よって今回の研究ではその対処法として、購買されるデータに重みをかけてデータを水増しするといったものを考えました。この時、本来の購買確率に合うようにデータの重みを事前に学習する必要があります。
この時、どのくらい水増しするべきか?は、シンプルにdelayed feedbackによって減少した分だけ水増ししたいということになります。これを測るためには、本来の購買確率とdelayed feedbackに影響を受けた購買確率の比較を行う必要があります。しかし、本来の購買確率は最終的に予測したいものであり、観測することができません。
よってこの研究では、すでに購買の観測が完全にできている少し前のデータに着目し、そのデータにおいて重みを予測するようなモデルを学習し、そのモデルを使って最終的な購買予測で用いる重みを予測することを提案しています。
Importance Weightはバイアスへの対処としては基本的な手法です。それゆえに多くの手法に対して導入が可能であり、ほぼ全ての機械学習ライブラリにて実装が可能という利点があります。また、Importance Weightの推定にnonparametricなモデルを利用することで、delayed feedbackの周期性や商品による違いなどを考慮することも可能となっています。
実験とビジネス応用
今回の研究では3つの実験を行っています。
最初の実験は既存手法との比較を行うために、既存研究で用いられたオープンデータであるCriteo Conversion Logs Datasetを用いたオフライン実験を行います。実験では3週間の学習データを用意し、学習データの次の日のデータをテストデータとする。これを1日ずつ7回ずらすことで、7日間モデルが毎日アップデートされた状態での性能が検証しています。
この結果、既存研究における指標であるlog-lossや、近年確率予測の評価としてより適正であると考えられているnormalized log-lossにおける精度が統計的に改善されました。
2つ目の実験はCyberagentにおける広告商品であるDynalystのデータを用いて、先ほどの実験と同様の比較を行ったものです。この実験はDynalystにおいて提案手法が有用であることを確認するための実験であるため、Dynalystで利用されているFieldaware Factorization Machines(FFM)と、FFMにImportance Weightingを導入したFFMIWを比較しました。
この結果、FFMIWが購買の観測期間が長いキャンペーンにおいては大きく性能を改善しました。
最後の実験では2つ目の実験の結果を反映させて、観測期間が長いキャンペーンにおいて実際に提案手法を「Dynalyst」へと導入し、A/B testを行い、提案手法を導入することによるビジネスへの効果を推定しました。
その結果、すでに導入されていたFFMに対して、購買の獲得効率を保ちつつ、広告配信としての売り上げを30%ほど増加させるという結果となりました。
考察
データのバイアスによって機械学習の性能が応用において劣化するという問題は、理論上よく知られていました。しかし、それを実際に修正したときに果たしてどのような利益がビジネスにもたらされているかを実際に計測できている応用研究は著者の質限りでは存在していません。
本研究はdelayed feedbackによって教師データに発生したバイアスを軽減する方法を提案しただけではなく、実際にビジネスに応用してA/Bテストを行うことで「データのバイアスへの対応が実ビジネスへの貢献につながる」ということを示しました。
お知らせ
サイバーエージェントAI Labではデータにバイアスが存在する場合の機械学習について積極的に研究を行うとともに、同じ興味を持つ人たちとの交流などを行っています。このような目的からCounterfactual Machine Learning勉強会というイベントを不定期で共催しておりますので、興味のある方はぜひご参加いただければと思います。
執筆者情報
-
安井翔太
サイバーエージェント AI Lab Economic Research Scientist
2013年Norwegian School of Economics MSc in Economics 修了後、サイバーエージェントに入社。 入社後は広告代理事業にて広告効果検証等を行い、2015年にアドテクスタジオ(現AI事業本部)へ異動。以降はDMP・DSP・SSPと各種のアドテク商品においてデータを元にした意思決定のコンサルティング等を担当。 現在はAI LabのEconグループのリーダーとして経済学と機械学習の融合に関する研究を行う。 著書「効果検証入門: 正しい比較のための因果推論/計量経済学の基礎」
この記事に関するカテゴリー