セグメンテーションの境界より正確に!精密に!物体の形を把握する最高精度モデルの新提案

論文:Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations

セマンティックセグメンテーションとは、深層学習を用いた画像認識の一種で、ピクセル単位で画像内の物体が何かをそれぞれ認識するタスクのことを指します。

セグメンテーションは、機械モデルに人間と同様の認識能力を学習させるために非常に重要な技術の一つです。実際、人間は物体を認識する際、自然と各物体の境界を把握し、各物体を識別しています。物体の縁を囲う枠(境界線)の幅を小さくすれば小さくするほど、より精密な認識が可能になっていると言えます。

本研究では、任意のセグメンテーションモデルに加え新たな層を追加することで、より高精度なセグメンテーションを行い正解データに近づけることを目的としています。

あらゆるend-to-endの境界検出器(セグメンテーション機)に損失関数を加えることで追加することができる新しいレイヤを提案しています。

モデル概要

 

ここでは、既存モデルと比較しながら、新たな損失関数の設定を紹介します。

最初に任意のセグメンテーションモデルを用いて、大まかなセグメーテーションを行い、それをさらに精製するネットワークを導入することで、目的である精密かつ厳密な境界の生成を行なっています。

そのために、任意の既存モデル(全てのセグメーテーションモデル)に加えて、セグメンテーションをより細く精密にする3つの損失関数を新たに設定することで構成されています。 加えて、ノイズを考慮しつつ細かな境界生成を行います。

1つ目に、正解データと比較し、”外側の境界”と”それ以外の境界”の比を用いた損失関数を交差エントロピー誤差として設定し、学習を通じて精密な細い境界の表現を行うことを目指していきます。

2つ目に、通常通り生成された境界と生成された境界の差をピクセルごとに比較し、最適化を行う損失関数(NMS loss)を設定することで従来モデルを利用しさらに精度の高いモデルを生成します。

3つ目に、正解データとの比較を角度的な視点から調整を行い、損失関数として設定します。

また、従来モデルでは、通常各ピクセルを独立のものとして扱いますが、計算が爆発する可能性を秘めています。本モデルはNMS(Non-maximum suppression)を導入しているため、これを防ぐことが可能になります。

最後に、画像の精製を行う際には、活性化関数に条件付き確率のパラメータを用意し、その”精度”を調整することも可能にしています。

 

 

結果

上記は、従来モデルの中で最も精度が高いCASENetと本モデル(STEAL)により生成された境界を比較しました。従来モデルよりも、”無駄な部分を省いて”境界を生成できていることがわかります。

また、(iv)にあたっては、さらに線幅修正の損失関数を加えることにより、より精密な境界を生成することができており、非常に正解データと比較して差が小さいことがわかります。

実際、数値的にも様々な物体を比較した際の実験結果が得られています。(以下表参照)

その他、計20種類の物体を認識させた際の精度は、75.6[%]となっており、CASENetの平均精度71.4 [%]と比較し向上できていることがわかります。

おわりに

今回提案された損失関数を新たに導入したレイヤは、その他のセグメンテーションモデルにもそのまま接続可能であり、汎用性の高いモデルとなっています。今後は、訓練データとしてより多種多様なデータを用いて学習を行うことで、幅広い分野に対応できることが期待されます。

今回紹介したように、セグメンテーションを精密・細分化することで画像認識の精度全体を底上げすることができ、誤作動を減らすことに貢献するでしょう。