CNNは本当にテクスチャ好きなのか？

画像認識 2020年10月01日

3つの要点
✔️ テクスチャバイアスについての調査結果
✔️ 基本的にCNNはテクスチャバイアスを持つ
✔️ 形状情報を持っていないわけではないことも判明

The Origins and Prevalence of Texture Bias in Convolutional Neural Networks
written by Katherine L. Hermann, Ting Chen, Simon Kornblith
(Submitted on 20 Nov 2019 (v1), last revised 29 Jun 2020 (this version, v2))
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Neurons and Cognition (q-bio.NC)

はじめに

畳み込みニューラルネットワーク(CNN)は画像分類や物体検出など様々な分野で最先端の性能を発揮してきました。その性能は高く、研究分野では人間にも負けない性能を発揮しています。面白いことに人間の視覚プロセスの真似をしてCNNは発明されたにもかかわらず、人間の視覚とは異なる点がいくつかあります。その代表的なものが分類問題において、人間は形状情報を好むのに対して、CNNはテクスチャ情報を好むという点です。下の画像は猫の形状情報に象のテクスチャ情報を載せたものになります。人間は形状情報を好むため猫と判断しますが、CNNはテクスチャ情報を好むため象と判断します。
また用語として、形状よりもテクスチャを好むことをテクスチャバイアスとテクスチャよりも形状を好むことを形状バイアスと呼びます。

これらのテクスチャバイアスがadversarial examplesの問題の現象に関与しているとも言われています。小さな摂動に影響を受けやすいのはテクスチャ情報を好むからではないかと言うことですね。また、テクスチャを好むと言うことは、帰納的バイアス(機械学習手法が汎化のために採用している仮説が、実世界の状況とはずれている)を示しているとも言えます。形状情報が重要なタスクに関してもCNNはテクスチャを好むため、帰納的バイアスがあってもおかしくないですね。

ここで第一に、人間は形状情報を好むのかって疑問を抱いた人もいるでしょう。これは心理学の問題ですでに多く検討されています。結論から言うと人間はテクスチャよりも形状で判断しがちです。下の図を見てください。左はJで右はKと判断した人がほとんどだと思います。しかし、テクスチャ的には左はNで右はEです。CNN的にはこれは後者が使用されがちです。ここが人間と違うと言うのが有名な違いでした。