最新AI論文をキャッチアップ

野生のニホンザルを顔認識!新しい動物行動学研究

野生のニホンザルを顔認識!新しい動物行動学研究

Face Recognition

3つの要点
✔️ 顔認識技術を用いて野生のニホンザルを個体識別、80%を超える精度を達成
✔️ 生態学や行動学における新しい研究手法の可能性を示唆
✔️ 既存のモデルやライブラリを利用した簡易的な手法であり、AIの専門知識がない研究者でも実現可能

Deep Learning for Automatic Facial Detection and Recognition in Japanese Macaques: Illuminating Social Networks
written by Julien Paulet (UJM), Axel Molina (ENS-PSL), Benjamin Beltzung (IPHC), Takafumi SuzumuraShinya YamamotoCédric Sueur (IPHC, IUF, ANTHROPO LAB)
(Submitted on 10 Oct 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Social and Information Networks (cs.SI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この論文では、顔認識技術でニホンザルを識別し、ニホンザルのソーシャルネットワーク(社会性)を評価する仕組みを提案しています。生態学や行動学では、複雑な社会構造を理解するために個体を識別することが重要です。これまで動物を対象とした実験では、動物の個体を識別するためにタグをつけるなど、動物を不快にさせ、悪影響を与える方法が主流でした。また、このような方法は、研究者にとって多大な時間と労力を費やすものでした。

一方で、近年のディープラーニングの進歩によって、顔認識技術が進歩し、防犯カメラや入国管理など様々な用途で実用化が進んでいます。そこで、この論文では、顔認識技術を利用して、ニホンザルの顔を識別し、ニホンザルの集団ネットワークを構築・評価する実験を行っています。

顔認識技術を動物行動学に応用したユニークな研究です。この新しい取り組みが、ニホンザルをはじめとする動物の個体追跡や、それを応用したソーシャルネットワークの研究分野において有用なものとなり、今後の研究の幅を広げるきっかけになる可能性があります。

研究内容と結果

下図は、この論文の手法の全体像です。データ収集(Data collection)、顔検出(Face Detection)、個体識別(ID Classification)そして、それらを利用したソーシャルネットワーク分析(Social Network Analysis)を行っています。

この研究は、宮崎県串間市近くの日南海岸から約300メートル離れた小さな島「幸島」で、2023年2月から3月の2ヶ月間行われています。幸島は、岩がちな海岸に囲まれ、島の中に100メートルにわたって伸びる大泊と呼ばれる砂浜があり(下図A)、研究対象であるサルのグループは、毎日、特に朝、砂浜の周りに集まります(下図B)。研修対象のサルのグループは、6匹の雌、11匹の雄、性別がまだ確定していない幼いサル5匹を含む合計42匹で構成されています。

この島は、もともとフィールドワークとして有名であり、島に住む猿には名前がついています。研究者は週に1〜3日の頻度で、餌をやりに行き、で釣りながらサルを体重計に乗せて定期的に体重を計測するなど継続的な観察をしています(下図C)。また、観光客が定期的に島を訪れるため、比較的、人間に慣れているサルたちです。

2023年2月から3月にかけての2ヶ月間、幸島のニホンザルを毎日の撮影しています。島に到着すると、すぐに餌を与え、砂浜でサルが毛繕いをして休んでいる時、気を許しているタイミングを見計らって撮影しています。はっきりとした正面の顔、様々な角度の顔など顔認識に適したサルの顔画像をできるだけ集められるよう、様々な工夫がされています。結果として、2ヶ月の観察期間を通じて、約15時間にわたる370本の動画を撮影しています。

動画を撮影後は、顔検出モデルの学習データを作成するために、動画から合計5,985フレームを抽出し、アノテーションしています。また、「Japanese Macaques Look Almost Human」というYouTube動画から1秒1フレームの割合で抽出した642フレームもデータに加えられ、合計6,622フレームのデータセットを作成しています。アノテーションでは「macaque」とラベル付けされたバウンディングボックスをサルの顔に付与しています。さらに、データ拡張も行い、最終的に合計17,772フレームまでデータ量を増やしています。

顔検出では、ディープラーニングを用いた畳み込みニューラルネットワーク(CNN)モデルを利用しています。COCOデータセットで事前学習した後、作成したニホンザルのデータセットでファインチューニングしています。顔検出の結果は下図の通りです。

モデルが予測した顔の位置を示す枠(検出ボックス)と、人間が手作業で指定した枠(アノテーションされたボックス)がどれだけ重なっているかを測定するIoUが0.5のときに、Average Precisionは82.2%を達成しています。

 

次に、個体識別についてです。ここでは学習データを作成するために、5,985フレームからなる初期のデータセットをランダムに半分に減らし、モデルが同じような画像に過剰に適応することを予防しています。また、様々な動画から新たに1,210フレームを手動で選び出し、データセットに追加し、多様な表情、背景を持つ新しい画像を含むようにしています。Roboflowというツールを使用して、既存の顔検出用データセットと同じ方法でアノテーションされ、すべてのバウンディングボックス(画像内でニホンザルの顔の位置を示す枠)に、該当するニホンザルの名前が手動でラベル付けされ、42個の異なるクラス(個体の名前)が付与されています。データ拡張を加え、最終的に5,956枚の画像からなるデータセットを作成しています。このデータセットをもとに、畳み込みニューラルネットワーク(CNN)モデルを学習しています。

下図は、このモデルがそれぞれの個体をどれだけ正確に識別できるかが評価されています。

Top1 Accuracy(図左)を見ると、AIが最も可能性が高いと予測した名前が実際の個体の名前として一致する精度が80%を超えていることがわかります。また、Top5 Accuracy(図右)を見ると、 AIの予測した上位5つの候補の中に正しい個体の名前が含まれている精度が90%を超えていることがわかります。

最後に、ソーシャルネットワーク分析です。将来的には自動でネットワーク図を生成することが目標としていますが、今回は、比較対象として手動で計算をしています。ここでは、特定の環境で捉えられた個体間の共起を分析して、個体間の関連度を計算し、それを社会ネットワークとして表現する初期段階の分析を行っています。二者間の関連度は、ある個体が別の個体と同じ動画内でどれくらいの頻度で登場するかを示す確率です。これは、物理的な近さの指標として使用されます。つまり、2つの個体がどれくらいの頻度で一緒にいるかを数値で示すことで、その関連性を把握します。計算には「単純比」という手法を使用しており、これは2つの個体が共に登場する回数を、データセットにおける両個体の出現総数で割って求められます。

さらに、グループ全体の社会的なつながりを理解するために、2つのメトリックを計算しています。一つは、ネットワーク密度であり、これは、ネットワーク内で実際に存在するリンク(つながり)と、理論上可能なリンクの総数の比率を示します。これにより、ネットワークがどれくらい密接につながっているかを数値で示します。もう一つは、グローバル効率です。これは、ネットワークを通じて情報がどれだけ速く伝わるかを、最小の接続数で測る指標です。効率が高いほど、少ないつながりで情報が素早く広がることを意味します。個体ごとには、「度数」(その個体がどれくらい多くの他の個体と関連しているか)、「強度」(個体が持つすべての関連指数の合計)、「固有ベクトル中心性」(その個体がネットワーク内でどれくらい中心的な役割を果たしているか)といった社会性の値なども計算しています。そして、最後に、これらの情報を視覚的に表現するために、「igraph」というソフトウェアパッケージを用いて、集団のソーシャルネットワークを描写しています。このグラフは、GEM(グラフ埋め込み)というレイアウトアルゴリズムを用いて、ネットワーク内の個体間の関連性を空間的に示しています(下図)。

分析の結果、個体間の二者間の共起は合計で276件観察されています。その結果として得られた関連ネットワークは、密度が0.173、グローバル効率が0.508というスコアです。度数と強度が最も高かった個体は、ほとんどが若い個体です(詳細な結果は、論文の補足資料に記載されています)。顔認識を利用したソーシャルネットワーク分析の有用性を示唆する結果が得られています。

まとめ

この論文では、ニホンザルの顔検出と識別を自動化するAIパイプラインを開発しています。また、動画からニホンザルの顔を認識し、そのデータをもとにソーシャルネットネットワークを構築しています。既存のモデルやライブラリを利用しており、簡易的な方法で実現されているため、AIの専門知識がない研究者にとっても大きな利益をもたらす可能性があります。

今後は、このパイプラインを使用して、幸島のニホンザルだけでなく、他の集団にも適用し、長期的な研究に貢献できるよう微調整・改善が計画されているようです。このツールを使用することで、異なるニホンザルの集団間でソーシャルダイナミクスの比較研究が行えるようになり、ニホンザルの文化的多様性の研究など、より広範囲な研究に寄与することが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする