Paddingが「死角」を生む！？そんな盲点を検証！

画像認識 2020年10月26日

3つの要点
✔️ パディングがどのようにしてCNNのアーチファクト(死角)を発生させるのかを実証
✔️ 0パディングの不均等な適用がバイアスの解決可能な原因であることを特定
✔️ パディングとCNNのfoveation(フォビエーション)の挙動との関連を解明

Mind the Pad -- CNNs can Develop Blind Spots
written by Bilal Alsallakh, Narine Kokhlikyan, Vivek Miglani, Jun Yuan, Orion Reblitz-Richardson
(Submitted on 5 Oct 2020)
Comments: Accepted at ICLR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
Paper Official Code COMM Code

はじめに

畳み込みニューラルネットワーク(CNN)は、さまざまな機械学習タスクの最先端の特徴抽出器となっています。多くの研究は、CNNが入力に対して計算する特徴マップを理解することに焦点を当ててきましたが、特徴マップ内の空間的分布にはほとんど注目されていません。この点に著者たちが興味を示した理由が、信号機検出器の謎の故障事例がきっかけだそうです。どういうことかと言いますと、車載カメラシーケンスの1フレームの中で、小さくても目に見える信号機を検出することができます。しかし、次のフレームでは、同じ信号機の検出に失敗します。

おかしな話です。高精度に信号機を検出できていたはずなのに、1フレーム次にいくだけで検出できなくなるのです。違いは入力画像で言えば、車は進んでいるため垂直方向に少し信号機がシフトしている程度しか違いがありません。なのに失敗するのです。CNNは不変性があると、よく聞くと思います。それにもかかわらず、微妙にズレただけで検出できなくなる事例が存在することに違和感を感じ、この研究は始まっています。

結論から言うと、著者たちは特徴マップの活性化の空間分布を解析すると一貫した特徴ではないアーチファクトが存在していることが原因でした(ちなみに多くの画像系の研究者なら多分、このアーチファクトは見たことがあると思います)。今回の研究ではこのアーチファクトの発生原因とその影響を検討しています。

この研究の貢献は以下の通りです