最新AI論文をキャッチアップ

【EDAT24】製造業の動作分類に特化したイベントベースのデータセット

【EDAT24】製造業の動作分類に特化したイベントベースのデータセット

Datasets

 3つの要点

✔️ EDAT24データセットは、製造業における基本動作(待機、ピック、配置、ネジ締め)を高精度に分類するための新しいリソースです。
✔️ イベントカメラを使用したリアルタイムの動作検出に最適であり、製造業における人間とロボットの協働作業の効率と安全性を向上させます。
✔️ このデータセットはオープンソースで提供されており、研究者が簡単にアクセスし、追加のデータを含めて拡張可能な設計となっています。

Event-based dataset for the detection and classification of manufacturing assembly tasks
written by Laura DuartePedro Neto
[Submitted on 23 May 2024]
Comments: Accepted by arXiv
Subjects: 
Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、製造業の組立作業におけるイベントベースのデータセット「EDAT24」を紹介します。このデータセットには、製造業の基本的な動作(待機、ピック、配置、ネジ締め)が含まれており、人間のオペレーターがこれらの動作を行う様子が記録されています。データはDAVIS240Cイベントカメラを使用してキャプチャされ、光の強度の変化が発生する際にイベントが記録されます。イベントデータは、視覚情報を伝える軽量なデータ形式であり、人間の動作のリアルタイム検出と分析に適しています。各動作には100のサンプルが含まれており、合計で400のサンプルが提供されています。データは生データ(.aedat)および前処理済みデータ(.npy)として提供され、研究者が新しい製造動作を追加したり、データセットを拡張したりするためのPythonコードも提供されています。

はじめに

近年、製造業における人間の動作を分類・検出するためのイベントベースのデータセットの必要性が高まっています。従来のフレームベースのカメラは高品質な画像を生成しますが、高速なアプリケーションにおいてはモーションブラー(ぼやけ)や比較的長い遅延、動的範囲の制限などの問題が存在します。イベントカメラは、これらの問題を解決するために開発された新しいビジョンセンサーであり、非同期で動作するため高い時間分解能と低遅延を提供します。

イベントカメラは、光の強度の変化が発生したときにイベントを記録するため、動きの検出と分析に非常に適しています。しかし、イベントベースのデータセットはまだ少なく、特に製造業の分野ではほとんど存在しません。これが、著者らが新しいイベントベースのデータセット「EDAT24」を作成した理由です。

EDAT24データセットは、製造業の基本的な動作(待機、ピック、配置、ネジ締め)を対象としており、各動作について100のサンプルが含まれています。データは、生データと前処理済みデータの両方が提供され、研究者が新しい動作を追加したり、データセットを拡張したりするためのPythonコードも付属しています。データは、オープンソースのCTベンチマークを使用して収集され、静的なDAVISイベントカメラでキャプチャされています。

図1では、EDAT24データセットのフレームとイベントが示されています。緑の点は正の極性イベントを、赤の点は負の極性イベントを示しています。


図1: DAVIS240Cで撮影されたEDAT24データセットのフレームとイベントのショーケース。正極性イベントと負極性イベントは、それぞれ緑と赤のポイントとして各フレームの上にオーバーレイされています。

関連研究

イベントベースのビジョンセンサーの研究は急速に進展しており、その高い時間分解能と低遅延特性が特に注目されています。Gallegoら(2022)は、イベントベースビジョンの全体的な概要とその利点について調査を行いました。この調査によれば、イベントカメラは動きの検出と分析において従来のフレームベースカメラに比べて優れていることが確認されています。具体的には、高速な動きの検出や低照度環境での性能が向上することが示されています。

また、DuarteとNeto(2023)は、製造業における基本的な動作を分類するためのイベントデータのフィルタリング手法を提案しています。この研究では、フィルタリングされたイベントデータを用いて製造業の動作を高精度に分類できることを示しています。特に、製造業の動作をリアルタイムで検出し、分類することが重要であり、これが人間とロボットの協働環境において重要な役割を果たします。

Wangら(2019)は、ジェスチャー認識のための時空間イベントクラウドを提案し、RGBカメラからイベントカメラへの移行の利点を示しています。これにより、ジェスチャーの高精度な認識が可能となり、人間の動作の予測や安全な環境の確保に貢献します。

このように、イベントベースのデータセットと分類手法は、製造業における人間の動作のリアルタイム検出と分類において重要な役割を果たしています。本研究で提案するEDAT24データセットは、この分野における重要な貢献となることが期待されます。

 データの説明

EDAT24データセットには、合計400本のサンプルビデオが含まれています。これらのビデオはすべて.aedat(AEDAT 2.0)形式で保存されています。AEDAT 2.0ファイル形式は、フレームデータとイベント情報の両方を格納し、各イベントは32ビット幅の[アドレス、タイムスタンプ]ペアで記録されます。アドレスはイベントのx座標、y座標、および極性(polarity)を示し、タイムスタンプはマイクロ秒単位で記録されます。データセットビデオのイベント取得率は平均1.65MHzです。

データセットのディレクトリ構造は以下の通りです:

図2: EDAT24データセットのディレクトリ構造

 各.aedatファイルには、同名の.csvファイルが対応しており、記録の開始と終了時間のタイムスタンプが含まれています。最初と最後のイベントのタイムスタンプが記録され、各記録の正確な期間に関する情報を提供します。

さらに、NumPyファイル形式は高速な読み込み時間と小さいファイルサイズのため、生データから処理されたイベントデータを格納するために使用されます。各.aedatファイルは個別に処理され、イベントのみのデータが含まれる.npyファイルとして提供されます。このデータには、すべてのイベントのxおよびy座標のリスト、イベントの極性リスト、イベントのタイムスタンプリストが含まれます。

各動作は、CT-Benchmarkの一部を対象にしており、例えば、pick/bridge_peg_2.aedatというファイル名は、橋のペグ部品のピック動作の2回目のパフォーマンスのビデオシーケンスを示しています。

図3では、EDAT24データセットの取得ハードウェアとソフトウェアのセットアップが示されています。Arduinoはフットペダルおよび2つのプッシュボタンに接続されており、キャプチャシステムの開始と終了を信号で指示します。PythonソフトウェアはイベントカメラとArduinoの通信、データ記録、およびすべてのファイルの作成を処理します。

図3:EDAT24データセットのデータを取得するためのワークベンチのセットアップ

実験設計、材料および方法

データは、協調タスクベンチマーク(CT-Benchmark)内の製造組立タスクから収集されました。このベンチマークでは、さまざまな組立オプションが提供されており、EDAT24には「待機」、「ピック」、「配置」、「ネジ締め」という製造動作が含まれています。特に、人間とロボットの協調組立作業に焦点を当ててデータが収集されています。

図4では、データ収集のためのワークベンチのセットアップが示されています。DAVIS240Cイベントカメラは固定位置に配置され、データセットのビデオをキャプチャします。このカメラはUSBケーブルを介してコンピュータに接続され、オープンソースのjAERソフトウェアを使用してデータをキャプチャおよび視覚化します。イベントカメラが固定されているため、静止している要素はイベントデータに記録されません。したがって、イベントカメラは人間の手や胴体の動きのみをキャプチャします。

図4: EDAT24データセットの取得ハードウェアとソフトウェアのセットアップ

また、DAVIS240Cは1秒間に20フレームのグレースケールフレームも同時にキャプチャします。これらのグレースケールフレームもデータセットに含まれており、.aedatファイルをデコードすることでアクセス可能です。

ハードウェアのセットアップには、Arduinoがフットペダルおよび2つのプッシュボタンに接続されており、キャプチャシステムの開始と終了を信号で指示します。フットペダルを押すことで、Arduinoに信号が送られ、ユーザーは録画を簡単に開始および停止できます。追加のボタンにより、ユーザーは録画プロセスを続行するか中断するかを選択できます。

カスタムビルドのPythonソフトウェアは、イベントカメラ(jAERを介して)およびArduinoとの通信、データ記録、およびデータセット内のすべてのファイルの作成を処理します。このソフトウェアはGitHubリポジトリで自由に利用可能であり、Arduinoコードやデータ取得の使用を示すビデオも含まれています。

限界

本研究におけるデータ収集方法にはいくつかの制限があります。まず、400本のビデオが収録されていますが、合計の収録時間は約16分40秒(各ビデオ約2.5秒)に過ぎません。しかしながら、各基本動作(クラス)について100の異なるサンプルが含まれており、これは一般的な学習アルゴリズム、特に深層ニューラルネットワークをトレーニングするのに十分なデータ量です。

このデータ収集方法のもう一つの制限は、カメラの固定位置にあります。イベントカメラが固定されているため、静止した要素(例えば、背景)はイベントデータに記録されず、動いている要素(例えば、手や胴体の動き)のみが記録されます。この特性により、データセットは特定の動作検出に適している一方で、全体的な環境認識には限界があります。

さらに、データセットの構造は新しいデータの追加が容易になるように設計されています。これにより、研究者は簡単に新しいサンプルを追加してデータセットを拡張することができます。

倫理的な側面については、すべてのビデオに登場するのは著者自身であり、ビデオには手と胴体のみが映っているため、特定の個人を識別することはできません。そのため、インフォームドコンセントは必要ありませんでした。

結論

本研究では、製造業の組立作業における基本動作を分類するためのイベントベースのデータセット「EDAT24」を紹介しました。イベントカメラは、動きの検出と分析において高い時間分解能と低遅延を提供し、製造業における人間とロボットの協働作業の研究において非常に有用です。本データセットは、生データと前処理済みデータの両方が含まれており、研究者が新しい動作を追加したり、データセットを拡張したりするためのPythonコードも提供されています。

EDAT24データセットは、製造業の基本的な動作(待機、ピック、配置、ネジ締め)について100のサンプルが含まれており、合計で400のサンプルが提供されています。このデータセットは、人間の動作のリアルタイム検出と分類に適しており、製造業における人間とロボットの協働作業の安全性と効率性を向上させるための基盤を提供します。

データセットはオープンソースで公開されており、研究者が容易にアクセスして利用できるようになっています。これにより、製造業における人間の動作の検出と分類に関する研究が進展し、より安全で効率的な協働作業環境の実現が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定 日本イノベーション融合学会 DX検定エキスパート 合同会社アミコ・コンサルティング CEO

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする