![[EDAT24]制造操作分类专用的基于事件的数据集](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/July2024/edat24.png)
[EDAT24]制造操作分类专用的基于事件的数据集
三个要点
✔️ EDAT24 数据集是对制造业中的基本动作(等待、拣选、放置和拧紧螺钉)进行高精度分类的新资源。
✔️ 该数据集是使用事件相机进行实时运动检测的理想选择,可提高制造业中人机协作的效率和安全性。
✔️ 该数据集以开放源代码的形式提供,旨在方便研究人员使用,并可扩展以纳入更多数据。
Event-based dataset for the detection and classification of manufacturing assembly tasks
written by Laura Duarte, Pedro Neto
[Submitted on 23 May 2024]
Comments: Accepted by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文介绍了基于事件的制造装配操作数据集 EDAT24。该数据集包括基本制造操作(等待、拣选、放置和拧紧),并记录了执行这些操作的人类操作员。这些数据是使用 DAVIS240C 事件相机捕获的,该相机在光强发生变化时记录事件。事件数据是一种轻量级数据格式,可传递视觉信息,适合实时检测和分析人的动作。每个动作包含 100 个样本,共计 400 个样本。数据以原始数据(.aedat)和预处理数据(.nyp)的形式提供,还提供 Python 代码供研究人员添加新的制造行为或扩展数据集。
介绍
近年来,人们越来越需要基于事件的数据集来对制造业中的人类行为进行分类和检测。传统的帧式摄像机能生成高质量的图像,但在高速应用中存在运动模糊、相对较长的延迟和有限的动态范围等问题。事件相机是为解决这些问题而开发的新型视觉传感器,可异步工作,提供高时间分辨率和低延迟。
当光照强度发生变化时,事件摄像机会记录下事件,因此非常适合运动检测和分析。然而,基于事件的数据集仍然很少,尤其是在制造业。因此,作者创建了一个新的基于事件的数据集 EDAT24。
EDAT24 数据集涵盖基本制造操作(等待、拣选、放置和拧紧螺钉),每个操作包含 100 个样本。提供原始数据和预处理数据,并包含 Python 代码,以便研究人员添加新行为并扩展数据集。数据使用开源 CT 基准进行收集,并使用静态 DAVIS 事件相机进行捕捉。
图 1 显示了 EDAT24 数据集的帧和事件。绿点表示正极性事件,红点表示负极性事件。
图 1:使用 DAVIS 240C 拍摄的 EDAT24 数据集的帧和事件展示。正负极性事件分别以绿色和红色点叠加在每个帧上。 |
相关研究
对基于事件的视觉传感器的研究进展迅速,尤其关注其高时间分辨率和低延迟特性,Gallego 等人(2022 年)对基于事件的视觉的总体概况及其优势进行了调查。根据这项研究,事件相机在运动检测和分析方面优于传统的基于帧的相机。具体而言,它们在快速运动检测和弱光条件下的性能都有所提高。
Duarte 和 Neto(2023 年)也提出了一种事件数据过滤方法,用于对制造业中的基本行为进行分类。在这项研究中,他们表明过滤后的事件数据可用于对制造行为进行高精度分类。特别是,实时检测和分类制造行为非常重要,这在人机协作环境中发挥着重要作用。
Wang 等人(2019 年)提出了一种用于手势识别的时空事件云,展示了从 RGB 摄像机转向事件摄像机的好处。这实现了对手势的高精度识别,有助于预测人类行为并确保环境安全。
因此,基于事件的数据集和分类方法在实时检测和分类制造业中的人类行为方面发挥着重要作用。本研究提出的 EDAT24 数据集有望在这一领域做出重要贡献。
数据说明
EDAT24 数据集共包含 400 个视频样本。所有这些视频都以 .aedat(AEDAT 2.0)格式存储;AEDAT 2.0 文件格式同时存储帧数据和事件信息,每个事件都记录为 32 位宽的[地址、时间戳]对。地址表示事件的 x 坐标、y 坐标和极性(极性),时间戳以微秒为单位记录。数据集视频的事件采集速率平均为 1.65 MHz。
数据集的目录结构如下:
图 2:EDAT24 数据集的目录结构。 |
每个 .aedat 文件都有一个对应的同名 .csv 文件,其中包含记录开始和结束时间的时间戳。 记录的第一个和最后一个事件的时间戳可提供每个记录的确切持续时间信息。
此外,NumPy 文件格式加载速度快,文件体积小,因此用于存储从原始数据中处理出来的事件数据。每个 .aedat 文件都经过单独处理,并以包含纯事件数据的 .npy 文件形式提供。这些数据包括所有事件的 x 和 y 坐标列表、事件极性列表和事件时间戳列表。
每个操作都针对 CT 基准的某个部分,例如,文件名为 pick/bridge_peg_2.aedat 的文件显示了第二次执行桥钉部件拾取操作的视频序列。
图 3 显示了 EDAT24 数据集的采集硬件和软件设置:Arduino 连接到一个脚踏板和两个按钮,它们是采集系统开始和结束的信号;Python 软件处理事件相机和 Arduino 处理通信、数据记录和所有文件创建。
图 3:从 EDAT24 数据集获取数据的工作台设置。 |
实验设计、材料和方法
数据收集自合作任务基准(CT-Benchmark)中的制造装配任务。该基准提供了一系列装配选项,EDAT24 包括 "等待"、"拾取"、"放置 "和 "拧紧螺丝 "等制造操作。收集的数据尤其侧重于人机合作装配任务。
图 4 显示了用于数据收集的工作台设置:DAVIS240C 事件相机被放置在固定位置,并捕捉数据集的视频。摄像机通过 USB 电缆连接到计算机,并使用开源的 jAER 软件捕捉数据并将其可视化。由于事件摄像机是固定的,事件数据中不会记录静止元素。因此,事件相机只能捕捉人的手或躯干的运动。
图 4:EDAT24 数据集采集硬件和软件设置 |
DAVIS240C 还能以每秒 20 帧的速度同时捕捉灰度图像。这些灰度图像也包含在数据集中,可以通过解码 .aedat 文件来访问。
硬件设置包括一个连接到脚踏板的 Arduino 和两个按钮,这两个按钮用于发出信号,指示捕捉系统的开始和结束。按下脚踏板,信号就会发送到 Arduino,用户可以轻松地开始和停止记录。另外一个按钮允许用户继续或中断记录过程。
定制的 Python 软件负责处理与事件相机(通过 jAER)和 Arduino 的通信、数据记录以及创建数据集中的所有文件。该软件可在 GitHub 存储库中免费获取,其中包括 Arduino 代码和演示如何使用数据采集的视频。
限额
本研究的数据收集方法有几个局限性。首先,虽然录制了 400 个视频,但总录制时间只有约 16 分 40 秒(每个视频约 2.5 秒)。不过,每个基本行为(类别)都包含 100 个不同的样本,这对于训练一般学习算法,特别是深度神经网络来说,是一个足够的数据量。
这种数据收集方法的另一个局限性在于摄像机的固定位置。由于事件摄像机的位置固定,事件数据中不会记录静止元素(如背景),只会记录移动元素(如手或躯干的移动)。这一特点使数据集适合特定运动检测,同时限制了对整体环境的感知。
此外,数据集的结构设计便于添加新数据。这样,研究人员就可以通过添加新样本轻松扩展数据集。
在伦理方面,所有视频中出现的都是作者本人,由于视频中只显示了作者的手和躯干,因此无法识别具体的个人。因此,无需获得知情同意。
结论
本研究介绍了 EDAT24 基于事件的数据集,用于对制造装配任务中的基本动作进行分类。事件摄像机在检测和分析动作方面具有时间分辨率高、延迟时间短的特点,因此在研究制造业中的人机协作任务时非常有用。数据集包含原始数据和预处理数据,并提供 Python 代码供研究人员添加新行为和扩展数据集。
EDAT24 数据集包含 100 个基本制造操作(等待、拾取、放置和拧紧螺钉)样本,共计 400 个样本。该数据集适用于对人的动作进行实时检测和分类,为提高制造业中人与机器人合作的安全性和效率奠定了基础。
该数据集是开放源代码,可供研究人员轻松访问和使用。预计这将推动对制造业中人类行为的检测和分类研究,从而带来更安全、更高效的协同工作环境。
与本文相关的类别