ラベルを必要としないハイパーパラメータ最適化手法を提案

企業AI論文 2020年08月25日

3つの要点
✔️ ラベルのないデータセットに対するハイパーパラメータ最適化(HPO)を提案
✔️ 関連タスクから推定された対象タスクの損失関数を最適化することで実現
✔️ ベンチマーク問題と機械学習モデルのHPOに対する実験にて性能の向上を確認

Multi-Source Unsupervised Hyperparameter Optimization
written by Masahiro Nomura, Yuta Saito
(Submitted on 18 Jun 2020)
Comments: Published by AutoML Workshop (ICML). 2020.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

Code

企業紹介

CyberAgent 「AI Lab」ではマーケティング全般に関わる幅広い人工知能技術を研究開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取組むとともに、産学連携によって培ってきた技術を当社のビジネス課題と結びつけるような、より実践的な研究開発を行っています。

はじめに

機械学習モデルには、多くの場合、学習の前段階で設定すべきパラメータである ”ハイパーパラメータ” が存在します。例えば、Deep Neural Networksの場合であれば、学習率、バッチサイズ、Hidden Layer数、Hidden Layerにおけるユニット数などがハイパーパラメータに対応します。これらのハイパーパラメータは機械学習モデルの性能を大きく左右することが知られており、適切なハイパーパラメータの選択は機械学習の実用のための必須のステップとなっています。

ハイパーパラメータ最適化 (HPO)

一般の教師あり学習における機械学習モデルのハイパーパラメータ最適化(HPO)の手順は以下のように記述できます:

これまでの観測データから、評価すべきハイパーパラメータを選択
選択されたハイパーパラメータを使って機械学習モデルを最適化
検証データを使ってそのモデルによって得られる損失を計算
ステップ(1)から(3)を繰り返す

ここで、入力をハイパーパラメータ、出力を損失として見ると、これはあるブラックボックスな関数の最適化として捉えることができます。

ラベルがない場合のHPO

上記の手順のステップ(3)において、HPOでは検証データに対する損失である検証スコアの計算が必要になります。しかし、実用上、この検証データが不完全な形で得られることがあります。

例として、広告のクリック率 (Click Through Rate; CTR) 推定を考えます。新たな広告キャンペーンのCTR推定のための機械学習モデルをデプロイしたい場合は、そのキャンペーンが開始する前に機械学習モデルの訓練を行うことが望ましいですが、開始する前ではその広告に対してクリックされたかどうかのデータ、つまりラベルが得られていないことになります。よってこの場合だと、ラベルを用いて検証スコアの計算を行う通常のHPOを行うことはできません。

本研究では、このような場合でもHPOを可能にする方法を提案しています。具体的には、対象タスクのラベルが存在しない場合でも、関連タスクの (ラベルを含んだ) データを利用することで、対象タスクの真の損失関数を推定します。上述の広告データでは、これまで配信を行った広告の (クリックされたかどうかのラベルを含んだ) 配信結果が、関連タスクに対応します。この推定により得られた損失関数に対して最適化を行うことで、対象タスクのラベルがない場合でもHPOを可能にしています。

提案手法

損失関数の推定方法

タスク間において、ある特徴量に対するラベルの条件付き分布が一致していると仮定します。この仮定のもとで、本研究では、Importance Samplingを用いて各データに対して重み付けを行うことで、対象タスクに対して不偏（期待値が一致）な推定量を提案(unbiased)しています。

しかし、この推定量には分散が比較的大きくなりやすいという欠点があります。そこで、関連タスクに対してタスクごとに適切な重み付けをすることで分散を減少させた推定量も提案(variance reduced)しています。この分散を減少させた推定方法について、タスクの重み付けに対する凸結合の意味でこれ以上分散を小さくできない（つまり、最適な重み付けとなっている）ことを示すことができます。

実験と結果

論文では、人工的なベンチマーク問題と、実データを用いた機械学習モデルのHPOという2種類の実験を行っています。

まずベンチマーク問題では、提案推定方法の仮定である「タスク間の条件付き分布が一致」が成立している場合に、提案法が意図通りに適切に推定できているかを確認しています。提案法 (unbiased, variance reduced) との比較手法には、関連タスクのみを用いるナイーブな方法 (naive) と、本来は使うことができない真のデータ (つまり, 対象タスクのラベル付きデータ) を用いた手法 (oracle) を用いています。Figure 1. に示された結果から、提案法はナイーブな方法よりに対して大きく性能を改善し、真のデータを用いた手法に匹敵する性能を示していることが確認できます。

続いて、機械学習モデルのHPOの実験について説明します。本実験では、サポートベクターマシン (SVM) とLightGBMについてのHPOを行いました。ここで、データセットとしては、医療系のデータセットであるParkinson datasetとGvHD datasetを用いました。これらのデータセットでは、患者1人を1タスクとみなして学習を行います。この実験では、予測対象の患者についてラベルデータが得られていない状態を仮定しており、その患者の予測を他の患者のデータを用いて行うことを試みています。

Table 2に実験結果を示します。ベンチマーク問題における実験結果と異なる点として、不偏推定を行う提案法 (unbiased) はナイーブな方法と同等となっていることが確認できます。これは、今回用いたデータが比較的小サイズであり、提案法の推定の精度が悪化したためと考えられます。これに対して、分散減少を取り入れた提案法 (variance reduced) では、unbiasedの精度を改善し、ナイーブな方法よりも良い性能を達成することができています。

まとめ

本研究では、対象タスクのラベル付きデータが利用できない場合でも、関連タスクのラベル付きデータを利用することで、対象タスクに対するハイパーパラメータ最適化を可能にする方法の導入を行いました。そして、提案手法の性能を、ベンチマーク問題と機械学習モデルのハイパーパラメータ最適化に対する実験によって確認しました。本研究がハイパーパラメータ最適化の適用可能性を広げられることを期待しています。