Google広告の品質を高める：LLMを用いたコンテンツモデレーション

Large language models 2024年05月28日

3つの要点
✔️ 高度なコンテンツモデレーション手法の提案：Google広告のコンテンツモデレーションを効率的に実施するために、大規模言語モデルを利用したスケールアップ可能なエンドツーエンドソリューションを提案。
✔️ 広告ポリシー違反の効率的な検出：大量の広告画像からポリシー違反を高精度で迅速に識別し、「非ファミリーセーフティ」ポリシー違反の検出において、従来モデルを上回る成果を達成。
✔️ 技術の応用範囲の拡大と今後の展望：画像に限らず、ビデオ、テキスト、ランディングページなど、様々なモダリティや広告ポリシーに拡張可能であり、継続的な最適化によりコンテンツモデレーションの精度と効率が向上。

Scaling Up LLM Reviews for Google Ads Content Moderation
written by Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek
(Submitted on 7 Feb 2024)
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

Google広告のコンテンツモデレーションを改善するため、大規模言語モデルを利用し、スケールアップが可能なエンドツーエンドソリューションを紹介しています。この論文では、大規模言語モデルを活用する背景や、計算リソースにおけるレビューの規模についても触れています。そして、この課題に対する解決策を説明し、Google Adsポリシーを適用しているプラットフォームでの成果を報告しています。また、将来的な改善点と拡張性についても考察しています。

この論文の主な目的は、広告が配信オークションに参加する前に、全ての広告トラフィックにおけるGoogle Adsポリシー違反を高精度に検出することです。この技術はまず画像広告のみに適用していますが、このアプローチは拡張性があり、どのようなモダリティや広告形式にも適用可能であるとしています。つまり、大規模言語モデルだけでなく、大規模視覚言語モデルも含めて言及しています。

また、画像広告トラフィック全体を大規模言語モデルでモデレートするには、計算資源を大量に必要とするため、現実的な方法ではありません。また、人間によるレビューの制限されたバンド幅により、微調整や小規模モデルの学習のためのアノテーションデータを収集することもコストがかかります。そこで、Googleの既存の大規模言語モデルを活用し、プロンプトエンジニアリングやチューニングを駆使して、広告コンテンツのモデレーションに適した高品質な大規模言語モデルを開発し、このモデルを最小限の計算リソースで最大限に活用する方法を実現しています。特に、ユーザー、広告主、メディアを守るための重要な方針である「非ファミリーセーフティ」の広告コンテンツポリシー（性的示唆、性的商品、裸体等を制限）を対象に、このアプローチの効果を検証しています。

方法

この論文で紹介されているアプローチは、レビュー候補のファネリング、大規模言語モデルによるラベリング、ラベルの伝播、そしてフィードバックループを融合させたものです。概要は下図のとおりです。

まず広告トラフィックはファネリング（Funneling）により、コンテンツやアクターの類似性、非大規模言語モデルからのスコアに基づく選択、重複排除、アクティビティに基づくフィルタリング、クラスターに基づくサンプリングなど種々の処理を用いて、大規模言語モデルが処理すべきコンテンツ量を削減しています。続いて、プロンプトエンジニアリングとパラメータ効率の高いチューニングを施した大規模言語モデルによる推論（LLM Labeling）を行っています。ラベル伝播（Propagation）は、コンテンツの類似性に基づく技術を用いて効果を高めています。最終的に、LLMによる直接のラベリング及びラベル伝播によってラベル付けされた画像から、初期ファネリングステップへのフィードバックループ（Feedback Loop）を通じて、次のファネリングで既にラベル付けされた画像に似た候補画像を選択し、大規模言語モデルのカバレッジを画像広告トラフィック全体に拡大しています。

レビュー候補のファネリング（Funneling）では、ポリシー違反の可能性がある候補を検出するために、多様なヒューリスティックやシグナルを活用しています。この段階では、フィルタリングと多様化サンプリングを通じて、大規模言語モデルが処理するコンテンツ量を減らしています。コンテンツの類似性を利用して、過去にラベル付けされたポリシー違反画像を基に類似画像へラベルを伝播させ、類似性グラフを構築します。また、ポリシー違反を行うアカウントかの広告画像を集めることで、アクターの類似性も考慮に入れています。さらに、事前学習された非大規模言語モデルモデルを用いて、所定の閾値を超えるスコアを持つ候補画像を選定しています。

大規模言語モデルによる推論（LLM Labeling）について、大規模言語モデルが特定のタスクに適応には、プロンプトエンジニアリングやパラメータ効率の高いチューニングなど、複数の戦略が有効です。プロンプトエンジニアリングでは、大規模言語モデルに対する質問を慎重に設計しています。一方、パラメータ効率の高いチューニングでは、ラベル付きデータセット上での微調整を行い、タスクに適したパラメータ調整を行なっています。この論文では、コンテキスト内学習の能力を活かし、プロンプトエンジニアリングとパラメータ効率の高いチューニングを組み合わせることで、ポリシーに適合した高性能な大規模言語モデルを開発しています。ポリシーの専門家による手作業でプロンプトエンジニアリングとソフトプロンプトチューニングを行い、本番システムにも適した最終的なプロンプトを作成しています。

ラベル伝播（Propagation）とフィードバックループ（Feedback Loop）について、大規模言語モデルによってラベル付けされた候補から、過去のトラフィックで見た保存済み画像の類似画像へラベルを伝播させています。この過程で、選択された大規模言語モデルによるラベル付き画像を既知の画像として保存し、近似重複と見なせるほど類似している新規画像にラベルを付与しています。直接的または間接的に大規模言語モデルによってラベル付けされたすべての画像は、レビュー候補の選択ステージで読み込まれ、コンテンツの類似性に基づく拡張として初期の既知の画像として使用され、大規模言語モデルによるレビューの次のラウンドで潜在的な候補として類似した画像を特定しています。

結果

この論文では、過去30日間に集めた4億枚の広告画像に対して、この手法をを適用しています。このプロセスでは、まずファネリング技術を使用して、対象画像を0.1%未満、具体的には40万枚まで大幅に絞り込んでいます。これらの画像はすべて、大規模言語モデルによって精密なレビューを受けています。ラベル伝播を経た後、肯定的評価を受けた広告数は2倍に増加し、この手法によって、従来のマルチモーダルの非大規模言語モデルを使用した場合と比べて、約2倍多くの画像に対してラベリングを実施できたことが明らかになりました。特に注目すべきは、「非ファミリーセーフティ」の広告ポリシーに関して、精度の面でも従来のモデルを上回っていることです。総じて、この手法は該当ポリシー違反の画像広告を15%以上削減することに貢献しています。

現在、この手法を画像だけではなく、ビデオ、テキスト、ランディングページといった他の広告コンテンツや、より多様な広告ポリシーに適用することを目指して拡大を進めているとしています。また、ファネリングのプロセス改善、大規模言語モデルのプロンプトの更なるチューニング、高品質な埋め込みを利用した類似性のより効果的な伝播といった、パイプライン全体の品質向上に向けた取り組みも行なっているようです。さらなるコンテンツモデレーションの精度と効率の向上が期待されます。

まとめ

大規模言語モデルは、コンテンツモデレーションにおいて非常に有効なツールですが、Google Adsのような大量データを扱う場面では、高い推論コストとレイテンシーが課題となります。この論文では、Google Adsのコンテンツモデレーションを効率的に拡大するための大規模言語モデルの利用方法を提案しています。

具体的には、フィルタリングと重複除去を行い、広告のクラスターを作成して、各クラスターから代表する広告を選出し、その代表する広告のみを大規模言語モデルでレビューする手法を採用しています。さらに、代表する広告の大規模言語モデルによる判断をクラスター全体に適用することで、レビュー対象の数を大幅に減少させるとともに、従来の非大規模言語モデルと比較してリコール率を2倍に向上させています。このアプローチの成功は、クラスタリングとラベル伝播に使用されるデータの表現方法に大きく依存しており、特にクロスモーダルの類似性表現が単一モードの表現よりも優れた結果をもたらすことを明らかにしています。

この手法は、今後の不適切な広告の識別と排除を強化し、ユーザー体験を向上させることに繋がります。また、広告だけではなく、ニュース記事の検証、ソーシャルメディアの監視、教育資料の評価など、多様な分野での利用が考えられます。この論文の成果は、技術的な改善だけでなく、社会的な影響や倫理的な検討を含めた広範な議論を促すきっかけにもなり得ます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。