最新AI論文をキャッチアップ

大規模画像認識のための非常に深い畳み込みネットワーク

大規模画像認識のための非常に深い畳み込みネットワーク

画像認識

3つの要点
✔️ 非常に小さな (3 × 3) 畳み込みフィルターを備えたアーキテクチャを使用して、深さが増加するネットワークを徹底的に評価しました。
✔️ これらの発見は、ImageNet Challenge 2014 への提出の基礎となり、そこで、著者たちのチームはローカリゼーション トラックと分類トラックでそれぞれ 1 位と 2 位を確保しました。  

✔️ 従来の ConvNet アーキテクチャを使用して ImageNet チャレンジ データセットで最先端のパフォーマンスを達成できることが実証され、 深さが大幅に増加しました。

Very Deep Convolutional Networks for Large-Scale Image Recognition
written by Karen SimonyanAndrew Zisserman
(Submitted on  4 Sep 2014 (v1), last revised 10 Apr 2015 (this version, v6))
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この研究では、画像認識における畳み込みネットワークの深さが精度に与える影響を調査しました。重要なのは、小さな畳み込みフィルターを使用したネットワークの評価で、16~19の重み層を持つ深いネットワークが従来の構成よりも優れていることが示されました。これらの結果は、2014年のImageNet Challengeでの成功につながり、提案されたモデルは他のデータセットでも優れた性能を発揮しました。研究者は最も効果的な2つのConvNetモデルを一般公開し、ディープビジュアル表現の研究を促進することを目指しています。

導入

最近、畳み込みネットワーク(ConvNet)は大規模な画像認識で成功しています。これは、大規模な画像データセットと高性能なコンピューティングシステムの進歩によるものです。特に、ImageNet大会が視覚認識技術の進歩に寄与しています。畳み込みネットワークはますます一般的になり、多くの改良が試みられています。この研究では、畳み込みネットワークの深さが重要であることを示し、小さなフィルターを使用して深いネットワークを構築する方法を提案しています。結果として、高い精度を持つネットワークが構築され、その性能は他のデータセットにも適用可能です。最終的に、最先端のモデルが一般公開され、研究の進展が期待されます。

アーキテクチャ

ConvNetのトレーニング中、入力は固定サイズの224×224のRGB画像で、唯一の前処理は各ピクセルから平均RGB値を減算することです。畳み込み層では3×3の小さなフィルターが使用され、ストライドは1ピクセルです。空間プーリングは最大プーリング層によって行われます。畳み込み層の後には3つの完全接続層が続き、最後の層はILSVRC分類のためのソフトマックス層です。すべての隠れ層にはReLU非線形性があり、ネットワークにはローカル応答正規化は含まれていません。

構成

この論文では、畳み込みネットワーク(ConvNet)の構成を5つのモデル(AからE)で評価しました。これらのモデルは一般的な設計に基づいており、深さが異なります(Aが11層、Eが19層)。ネットワークの深さに応じて、重み層の数や層の幅が変化し、最初の層が64から始まり、最大プーリング層ごとに2倍ずつ増加して512に達します。

表 2 では、各構成のパラメータの数を報告します。 深さが深いにもかかわらず、ネット内の重み層の数は、より大きな変換を備えたより浅いネットの重み層の数より大きくはありません。

議論

この研究では、畳み込みネットワーク(ConvNet)の構成を変更し、従来の大規模な受容野ではなく、小さな3×3のフィルターを使用することでパフォーマンス向上を実現しました。これにより、非線形整流層の導入やパラメータの削減が可能になりました。小型フィルターの導入により、より高い決定関数の識別力が得られ、1×1の畳み込みも非線形性を向上させました。これは従来のアプローチよりも効果的で、深いネットワークでも高い性能が実現されました。 

分類の枠組み

トレーニング

この研究では、ConvNetのトレーニングには運動量を伴うミニバッチ勾配降下法が使用され、バッチサイズは256、運動量は0.9に設定されました。正規化には重み減衰やドロップアウトが使用され、学習率は段階的に減少しました。初期重みの設定は浅いモデルから始まり、深いアーキテクチャのトレーニングに進む際に一部の層を初期化しました。画像はランダムにトリミングされ、水平反転やRGBカラーシフトが加えられてトレーニングセットが強化されました。

画像のサイズ

この研究では、ConvNetのトレーニング画像の最小辺を表すスケールをSとし、Sを固定またはランダムに設定する2つのアプローチを試みました。最初に、S=256およびS=384の2つの固定スケールでモデルをトレーニングしました。次に、マルチスケールトレーニングでは、各画像がランダムに再スケーリングされ、広範なスケールのオブジェクトを認識できるようにしました。最終的に、S=384でトレーニングされたモデルを基に、ランダムスケーリングで微調整してマルチスケールモデルを構築しました。

テスト

テスト時には、トレーニング済みのConvNetが入力画像を等方的に再スケーリングし、ネットワークを再スケーリングされたテスト画像上に密に適用します。これにより、画像全体にわたるクラススコアマップが得られ、最終的にはクラスのスコアが取得されます。テストセットは水平方向に反転され、元のイメージと反転されたイメージの結果が平均されます。完全畳み込みネットワークは画像全体に適用され、クロップごとに再計算する必要がなく、テスト効率が向上します。複数のクロップの使用も検討されましたが、計算時間の増加が精度向上を正当化しないと判断されました。

実装の詳細

この実装は、C++ Caffeツールボックスから派生しており、複数のGPUでトレーニングと評価が可能です。マルチGPUトレーニングではデータ並列処理を使用し、各GPUでバッチを処理して勾配を計算し、最終的に平均化されます。これにより、単一GPUでのトレーニングと同等の結果が得られます。実験では、4つのNVIDIA Titan Black GPUを搭載したシステムを使用し、トレーニングには2〜3週間かかりましたが、これにより既製の4GPUシステムよりも3.75倍高速化されました。

分類実験

データセット

このセクションでは、ConvNetアーキテクチャがILSVRC-2012データセットで達成した画像分類結果を示します。データセットには1000クラスの画像が含まれ、トレーニング、検証、テストの3つのセットに分かれています。分類パフォーマンスは上位1エラーと上位5エラーの2つの尺度で評価され、前者は誤って分類された画像の割合を示し、後者は予測のうち上位5の中に正解が含まれない画像の割合を示します。

単一スケールの評価

まず、前のセクションで説明したレイヤー構成を使用して、単一スケールで個々の ConvNet モデルのパフォーマンスを評価します。固定 S の場合は Q = S、ジッターのある S ∈ [Smin, Smax] の場合は Q = 0.5(Smin + Smax) です。 結果を表3に示す。

畳み込みニューラルネットワーク(ConvNet)の様々な構成を比較する実験結果では、正規化層の有無や深さの増加が分類誤差に影響します。深さが増すと誤差が減少し、非線形変換や空間コンテキストのキャプチャも重要です。また、深いモデルは大規模データセットでは有益で、小さなフィルターを備えた深いネットが優れていることが示されました。トレーニング時のスケールのジッタリングも効果的で、マルチスケールの画像統計を取得するのに役立ちます

多段階評価

ConvNetモデルの評価において、テスト時のスケールジッタリングの影響を検証しました。これは、テスト画像を異なるスケールに再スケーリングし、モデルを実行してクラスの事後平均を計算する手法です。トレーニングとテストのスケールの不一致が性能に影響する可能性を考慮して、固定スケールでトレーニングされたモデルは近いサイズで評価され、同時にトレーニング時のスケールジッタリングにより、広範囲のスケールでテストされました。

結果によれば、テスト時のスケールのジッターは、単一スケールで同じモデルを評価する場合よりもパフォーマンスを向上させます。最も深い構成 (DおよびE)が最高のパフォーマンスを示し、固定最小サイドSでトレーニングするよりもスケールジッターが有益であることが示唆されています。

多作物の評価

表5では、高密度ConvNet評価と複数作物評価を比較し、ソフトマックス出力の平均による2つの手法の相補性も検証しています。複数のクロップを使用するとわずかに優れたパフォーマンスが得られ、両者を組み合わせるとそれぞれの性能を上回ります。異なる畳み込み境界条件の処理によるものと考えられています。

コンブネット融合

この実験では、異なるConvNetモデルの出力を結合し、相補性によってパフォーマンスを向上させました。異なるモデルを組み合わせた結果、ILSVRCテストエラーが7.3%となりました。最高の2つのマルチスケールモデルのみを組み合わせると、エラーは6.8%まで減少し、最高の単一モデルは7.1%の誤差を達成しています。

最新技術との比較

著者の深層ConvNetはILSVRC-2014での分類タスクにおいて、7モデルのアンサンブルを使用してエラー率を6.8%に低減させ、前世代モデルを大幅に上回りました。これは、ILSVRC-2012およびILSVRC-2013コンペティションでの最高成績をもたらし、競合他社の提出物を大きく凌駕しています。特に、2つのモデルの組み合わせによって最も優れた結果が得られ、他の多くのモデルよりも少ないリソースで高い性能を実現しました。

結論

この研究では、大規模な画像分類において深い畳み込みネットワーク(最大19層)の評価が行われました。 従来のConvNetアーキテクチャを使用して、ImageNetチャレンジデータセットで最先端の性能を達成し、深さが増加することで表現深度が分類の精度向上に寄与することが示されました。また、モデルは広範なタスクやデータセットに適用可能であり、浅い画像表現に基づく複雑な認識パイプラインと同等またはそれを上回るパフォーマンスを示しています。これは、視覚表現における深さの重要性を再確認しています。

 

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする