画像タスクの性能を向上させる新しいリサイザー!
3つの要点
✔️ CNNを使った新しい画像再スケーリング手法の提案
✔️ 多様なアーキテクチャで動作し、一貫してパフォーマンスを向上
✔️ 任意のスケーリングファクタでの画像リサイズが可能
Learning to Resize Images for Computer Vision Tasks
written by Hossein Talebi, Peyman Milanfar
(Submitted on 17 Mar 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:
はじめに
近年のコンピュータビジョン領域の主な2つの成果は、CNNとImageNetのような大規模データセットです。これら2つの重要な成果に加えて、学習方法の進歩やデータの補強もCNNの性能向上に貢献してきました。一方で、画像サイズについてはそれほど重視されてこなかった側面の1つです。これまで、学習や評価の際には、最近傍、バイリニア、バイキュービックリサイズなどの手法により画像を低解像度(224x224)にダウンサンプルするのが一般的でした。これは、1)メモリの制限、2)ミニバッチ学習では同じサイズの画像が必要、3)学習速度、という3つの主な理由によるものです。このような情報の損失は、CNNの精度に大きな影響を与えているのではないかと考えられるが、実際に深く検討されてきてはいない。
そして最近の研究では、精度向上のために最適化されたエンハンスメントモジュールを学習することで、進歩が見られてきてはいます。認識モデルの目標は最終的な精度を向上させることなので、中間画像が人間に「よく見える」ようにモジュールを最適化することは必須ではないと考えられてきていました。
今回は、分類モデルと同時に学習される新しい適応型画像リサイザーを紹介します。画像リサイズ・モジュールは、Inception、DenseNet、ResNet、EfficientNetsなどの様々な分類モデルと、任意のスケーリング・ファクターで動作します。
リサイザーモデル
この画像リサイザーモデルはシンプルで、あらゆる種類のアーキテクチャに適用できます。また、画像のアップスケール、ダウンスケールにも対応しており、特定のアーキテクチャに最適なバッチサイズと画像解像度を効率的に探すことができます。
上の図はアーキテクチャを示しています。主な特徴は2つで、1)バイリニア・リサイジング、2)リサイズされたCNN特徴量とバイリニア・リサイジングされた特徴量の統合のためのスキップ接続です。上の図では、バイリニアリサイザーはフィードフォワードのボトルネックとして機能しています。これは画像のアップスケールにも使えます。またこのバイリニアリサイザーは、バイキュービックやランチョスなど、他の微分可能なリサイジング技術共置き換え可能です。
このモデルには、r ={1,2,3}の同一の残差ブロックがあります。中間の畳み込み層はすべて、サイズ3×3のn=16個のカーネルを持ち、最初と最後の層だけが7×7のカーネルで構成されています。また、上の図に示すように、バッチ正規化層とLeakyReLuアクティベーション(0.2の負の傾き係数を持つ)を利用しています。
上の表は、モデルに含まれるパラメータの数(単位:1000)で表したものです。最大のモデル(93.37(千)個のパラメータ)でも、ベースラインのResNet-50の2,300万個のパラメータに比べれば、はるかに小さいです(0.4%)。このように、本モデルは計算負荷をそこまで大幅に増加させません。モデルの学習には,シグモイド層を用いてロジットを生成し,クロスエントロピー損失を用いています。また、モデルのoverconfidenceを減らすために、0.1のラベルスムージングを利用しています。
分類モデルに加えて、AVAデータセットを用いて画質評価モデル(IQA)を学習し、モデルによるリサイズ画像の画質を評価します。AVAデータセットには、人間が注釈をつけた1から10までのスコアのヒストグラムがあります。そのため、最後の方は10のロジットを出力するソフトマックス層で構成されています。このIQAモデルは、Earth Mover's Distance(EMD)回帰損失を用いて学習しています。
上の式がCDFで、pkとqkはk番目のクラス(AVAデータセットではK=10)の予測値とラベルです。この損失により、モデルは人間の評価の分布を学習することになります。
実験
まず、バイリニア法とバイキュービック法を使ってベースライン・モデルを学習します。これらの学習されたCNNモデルの重みで、利用する分類モデルとIQAモデルの初期化します。提案されたリサイザーは、224x224から448x448までのさまざまな画像サイズで学習され、リサイザーの入力次元は常に出力サイズ以上に保たれます。メモリの制限があるため、バッチサイズは調整されます。
上の表はImageNetデータセットにおける分類の結果を示したもです。太い数字は224x224のカテゴリでの性能を強調しています。入力解像度を上げると、DenseNet-121、ResNet-50、MobileNet-v2の性能が向上する一方で、Inception-v2の性能は向上しないことがわかりました。
ここで、様々なモデルで行われたリサイズの画像サンプルを紹介します。リサイザーモデルは、高周波のディテールを強調する傾向があります。MobileNet-v2以外のモデルで形成された画像は、非常にシャープです。
上の表はAVAデータセットでの結果です。性能はgroundtruthスコアの平均値と予測スコアの平均値の相関によって測定されます。ここではPearson linear correlation coefficient (PLCC)とSpearman rank correlation coefficient (SRCC)を用いています。分類タスクと同様、リサイザーはベースラインモデルの性能を一貫して向上させています。
リサイザーモデルの一般性を検証するために、リサイザーを一定に保ったまま、CNNモデルを他のCNNモデルで置き換えてみました。約4エポックの微調整により、リサイザーモデルを効果的にターゲットモデルに適応させることができることがわかりました。
リサイザーモデルには、リブロック数(r)とフィルタ数(n)という2つのハイパーパラメータがあります。キャリブレーションの結果が以下です。n=16,r=1が最適であることがわかりました。
まとめ
今回紹介した画像リサイザーは使用するアーキテクチャにかかわらず、画像分類タスクのパフォーマンスを大幅に向上させます。しかし、まだ改善の余地は大きいです。リサイザーモデルでは、2つのハイパーパラメータ(r,n)を追加で調整する必要があり、あるアーキテクチャで学習したリサイザーを別のアーキテクチャで使用する際には、まだ微調整が必要になります。将来的には、画像のセグメンテーション、オブジェクトの検出、ビジュアル・テキスト・タスクのような他のタスクでも機能する、普遍的な適応型リサイザー・モデル(one-fits-all)の開発が求められれます。
この記事に関するカテゴリー