最新AI論文をキャッチアップ

CNNは本当にテクスチャ好きなのか?

CNNは本当にテクスチャ好きなのか?

画像認識

3つの要点
✔️ テクスチャバイアスについての調査結果
✔️ 
基本的にCNNはテクスチャバイアスを持つ
✔️ 形状情報を持っていないわけではないことも判明

The Origins and Prevalence of Texture Bias in Convolutional Neural Networks
written by Katherine L. HermannTing ChenSimon Kornblith
(Submitted on 20 Nov 2019 (v1), last revised 29 Jun 2020 (this version, v2))

Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Neurons and Cognition (q-bio.NC)

はじめに

畳み込みニューラルネットワーク(CNN)は画像分類や物体検出など様々な分野で最先端の性能を発揮してきました。その性能は高く、研究分野では人間にも負けない性能を発揮しています。面白いことに人間の視覚プロセスの真似をしてCNNは発明されたにもかかわらず、人間の視覚とは異なる点がいくつかあります。その代表的なものが分類問題において、人間は形状情報を好むのに対して、CNNはテクスチャ情報を好むという点です。下の画像は猫の形状情報に象のテクスチャ情報を載せたものになります。人間は形状情報を好むため猫と判断しますが、CNNはテクスチャ情報を好むため象と判断します。
また用語として、形状よりもテクスチャを好むことをテクスチャバイアスとテクスチャよりも形状を好むことを形状バイアスと呼びます。

これらのテクスチャバイアスがadversarial examplesの問題の現象に関与しているとも言われています。小さな摂動に影響を受けやすいのはテクスチャ情報を好むからではないかと言うことですね。また、テクスチャを好むと言うことは、帰納的バイアス(機械学習手法が汎化のために採用している仮説が、実世界の状況とはずれている)を示しているとも言えます。形状情報が重要なタスクに関してもCNNはテクスチャを好むため、帰納的バイアスがあってもおかしくないですね。

ここで第一に、人間は形状情報を好むのかって疑問を抱いた人もいるでしょう。これは心理学の問題ですでに多く検討されています。結論から言うと人間はテクスチャよりも形状で判断しがちです。下の図を見てください。左はJで右はKと判断した人がほとんどだと思います。しかし、テクスチャ的には左はNで右はEです。CNN的にはこれは後者が使用されがちです。ここが人間と違うと言うのが有名な違いでした。

今回ご紹介する論文は、このテクスチャより(テクスチャバイアス)に関する影響を見ていきます、data augmentationや学習手順、モデルがどのような影響があるかを探ったと言う内容の研究になります。

結論から言うと、いろいろな要因がテクスチャバイアスに寄与しています。その中でも最も重要な要因はデータそのものです。データ自体がテクスチャバイアスの大きな影響を与えているそうです。

本論文の貢献は以下になります。(最近のAI論文はintroに貢献を載せるのが流行っていますね。)

  • 色の歪みやノイズ等のdata augmentationはテクスチャバイアスを軽減させるが、ランダムクロップはテクスチャバイアスを増加させることが判明。
  • 自己教師付き学習のテクスチャバイアスを調査すると教師付きと比較して、テクスチャバイアスを減少させるものもあれば増加させるものも存在する。
  • ImageNetで優れた性能を発揮するモデルはテクスチャバイアスが低い
  • 学習目的・モデル・データの前処理・ハイパーパラメータ選択は、モデルのテクスチャバイアスに明確に寄与することが判明
  • 人間を模倣して設計されたモデルや畳み込みを自己注意機構に置き換えたモデルは通常のCNNと違うテクスチャバイアスを示した
  • CNNが形状情報を持つこともわかり、CNNのアーキテクチャ内の形状情報がどのように欠落していくかを発見

続きを読むには

(5689文字画像14枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする