ぶどう畑の救世主 !? 新たなデータセットを用いた高精度ぶどう検出器！

論文 2019年08月08日

参考論文 : GRAPE DETECTION, SEGMENTATION AND TRACKING USING DEEP NEURAL NETWORKS AND THREE-DIMENSIONAL ASSOCIATION

Subjects:Computer Vision and Pattern Recognition (cs.CV)

Submitted on 30 Jul 2019

written by Thiago T. Santos, Leonardo L. de Souza, Andreza A. dos Santos, Sandra Avila

皆さんはどんな果物が好きですか？

僕は、”ぶどう”が大好きです。一口サイズの大きさに、フルーティーな香り、そして何より口全体に広がる酸味と甘みの爽やかさは、ブドウならではだと思います。またその爽やかさから、”ワイン”として古くから親しまれており、その需要と価値は世界中でも指折りと言えるでしょう。

さて、本題に入りましょう。

今回紹介するのは基礎研究と言うよりも、AI活用の研究事例と言えるでしょう。これまで、工業分野における異常検知やきゅうりの選別など、画像認識技術は様々なシチュエーションで活かされて来ました。

しかしながら、パーツの形が十分に小さい誤差の範囲内で収まっている場合などがほとんどである工業分野に比べ、各個体ごとにその形や大きさが千差万別である農業分野への実用化はハードルが高いと言われています。

今回は、”ぶどう”の種類を正確に識別しカウントを行う、既存モデルの組み合わせによる精度向上の提案を行なっています。

“実用化”に焦点を当てた論文が、どの程度の精度を発揮できるかが注目点です。

このモデルを実用化することでデータを取得が容易になれば、例えば回帰分析を用いた収穫量の予測などをより精密かつ迅速に行うことができるでしょう。

新展性

ぶどうをはじめとした、果物は同じ種類であっても様々な”形”、”大きさ”、”色合い”があり、完全に同じ農作物と言うものは存在しないと言えます。また、ぶどうやりんごなどはその”外見”が非常に似ていても品種は様々なものがあり、素人では全く見分けがつかないものも多々あります。

今回は、既存モデルを新たに公開されたデータセットを用いることによる”ぶどう”の画像解析における精度向上とモデル比較を目指します。

例えば、昨年日本の農家において話題になった、「きゅうりの等級識別」などの実用例もその精度に悩まされており、モデルを”完全な機械化”から”人間の手作業のサポート”へ切り替えることで実用化を行なっています。

今回は、物体検出の精度向上に向けて、様々な工夫、モデルの組み合わせにより”人間を超えることを目指した識別能力の実装”を行なっている点がポイントです。

今回学習した画像解析器を用いて行った、ぶどう畑におけるにおけるテストの動画がYoutube上で公開されています。動画を見ると、このクオリティで様々な果物がカウント・識別できたら便利だろうな・・・と素直に思えます。

手法

今回提案されている手法は、ブラジルの農業研究公社”The Embrapa”から新たに公開されたぶどうのデータセット”WGISD (Wine Grape Instance Segmentation Dataset)”を用いて、主に3つのニューラルネットワークモデル”Mask R-CNN、YOLOv2、YOLOv3″をそれぞれ学習し、画像を識別させた出力結果を評価します。YOLOv2とYOLOv3の違いは、特徴量抽出のための畳み込みにあり、YOLOv3の方がより深いネットワークを持っており、マルチラベルの分類を行うことが可能です。

データセット”WGISD”は、既存モデルにおいて認識・識別が行われたぶどうの画像が学習用データ(正解データ)として用意されています。

まず、COCO-Datasetによって学習されたMask -RCNNを、取得したぶどうのデータセットを用いて訓練し重みのアップデートを行います。Mask-RCNNにおいては、画像内の物体の識別・切り出しを行います。YOLOネットワークは、ImageNetにおいて事前学習された物を用いて、物体検出とその分類(ラベル付け)を行います。

また、精度向上のため、SfM(Structure-from-Motion)と言う画像解析ソフトウェアを用いています。SfMは画像解析において非常に重要な基盤となる技術であり、対象を撮影した複数枚の写真から、対象の3D形状の推定を行います。3次元による解析を行うことで、誤認識を減らします。

実験結果

上画像が、実験結果となっています。ぶどうの品種別画像を各モデルを用いて画像認識を行い、それら結果を載せています。左から、”Mask R-CNN”, “YOLOv2”, “YOLOv3″による検出結果となっています。

上記出力結果は、それぞれ正解データに非常に近い精度でセグメンテーション・ラベル付けを行なっていることが、視覚的に分かります。

また、定量的評価は以下のようになります。

Ps	Rs	F1
0.920	0.860	0.889

上表は、アップデート後のMaskR-CNNを用いたテストデータにおける各画像ごとの平均識別精度スコア : Ps, Rs, F1をそれぞれ左から表しています。F1スコアの平均値は0.889となっており、最も高い画像において0.929, 最も低い画像において0.819と全体的に高水準の識別精度を示していることが分かります。YOLOv2,v3それぞれと比較したとき3つの中で最も高い精度であることが分かりました。

まとめ

応用研究だけあり、その精度・効率は高水準で、今回行ったぶどうの認識実験においては、Mask-RCNNがF1スコア: 0.89ほどの平均パフォーマンスをあげました。

この研究成果は様々な農業分野に応用が可能でしょう。例えば、同様の手法において”りんご”や”桃”、”ラズベリー”などの多種多様な果物を認識するためのデータセットさえあれば、どのような結果が得られるのか想像ができますね。また、各物体のカウントを行うことによる、より正確な収穫量の予測を行うことが可能です。

このモデルをさらに発展させることで、識別された果物の”健康状態の把握”や、”成長度合い予測”なども可能になるかもしれません。データセットの重要性を一見することができる研究だと思います。

最近、論文を読んでいく過程で、AIの活用事例がいよいよ”人間の手間を省く”段階から、”人間の能力以上の作業を行う”段階に移っていくのを感じます。今後、こう言った研究応用事例のタイプの論文はもっと増えていくと思います。実用化を踏まえた入念な評価が必要になってくるでしょう。