ラベルなしデータは「等しく」扱うべきか?半教師あり学習の拡張手法を提案
3つの要点
✔️ ラベルなしデータの一つ一つに重みつけした上で半教師あり学習を行う
✔️ influenece functionを応用することで自動的に重み付けを行う
✔️ 提案手法を軽量化するような手法についても検討
Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning
written by Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing
(Submitted on 2 Jul 2020 (v1), last revised 29 Oct 2020 (this version, v2))
Comments: NeurIPS camera ready
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)
背景
一般に教師あり学習の枠組みでは大量の訓練データを必要としますが、それら一つ一つのラベル付けを人間の手で行うことは困難を極めます。それに対し半教師あり学習は、一部のデータにラベルがついていない状態での学習を可能とするため、人為的なラベル付けのコストを削減する効果があると知られています。
ここで考えてみてほしいのですが、ラベルのついていないデータは本当に予測モデルの精度向上に貢献するのでしょうか?学習アルゴリズムにも依存しますが、時には学習の妨げとなるようなラベルなしデータも含まれるでしょう。例えばk-means法でラベルなしデータをあるクラスにあてがったとして、それが正しいクラスだという保証はありません。正しいとは限らない情報を元に予測器を訓練しても良いのか?ラベル付きデータと比較して、ラベルなしデータをどこまで信用していいかは一概にはわかりません。
今回ご紹介する論文ではこのような問題に取り組み、ラベルなしデータの一つ一つに重みを与えた上で半教師あり学習を行う手法を提案しています。アイディア自体はシンプルなのですが、これらの重みを自動的に求めるためにinfluence functionというテクニックを応用しています。これにより、我々人間が直接手を加えずとも勝手にラベルなしデータの重み(どこまで信用していいか)を計算し、それに基づいた学習が可能です。加えて、本論文で提案された手法を軽量化するような簡単な仕組みが紹介されています。
続きを読むには
(6062文字画像8枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー