データの不確実性に備える|分布外データの検知性能を改善する「尤度比」とは?

データの不確実性に備える|分布外データの検知性能を改善する「尤度比」とは?

3つの要点
✔️ 尤度によるOOD検出は背景情報によってモデルの学習にバイアスが生じ、検出に失敗する可能性が高い。
✔️ 今回提案する尤度比によるOOD検出では背景情報に対する対象物の情報に注目することができるため、背景情報の悪影響を抑えることができる。  

✔️ 尤度比を利用することでSOTAなOOD検出精度を達成することに成功した。

Likelihood Ratios for Out-of-Distribution Detection
written by Jie RenPeter J. LiuEmily FertigJasper SnoekRyan PoplinMark A. DePristoJoshua V. DillonBalaji Lakshminarayanan
(Submitted on 7 Jun 2019 (v1), last revised 5 Dec 2019 (this version, v2))

Comments: Published by NeurIPS 2019
Subjects: Machine Learning (stat.ML); Machine Learning (cs.LG)

はじめに

機械学習モデルでは、学習データの分布に含まれていなかった入力データ(OOD, Out-Of-Distribution)に対して誤った予測をすることがあります。また、その誤った予測に対して高いスコアを出力してしまう傾向があります。このため、重要な意思決定が必要な場面で機械学習モデルを適用する際には、入力データがOODであることを事前に検出できるとことが求められます。

このような問題があるユースケースの一つとして、バクテリアの検出があります。バクテリアの検出は、敗血症などの感染症の診断・治療や食中毒菌の特定などで不可欠です。しかし、その一方で新しい細菌が毎年発見され、OODにあたるバクテリアが増えています。既存のモデルが誤った予測し、かつそれを見過ごすリスクが高まっています。そこで、この論文ではゲノム配列に基づく細菌の同定を中心に高精度にOODを検出する、尤度比を利用した新しい検出方法を提案しています。

この記事をシェアする