
在未来工厂平台上获取的模拟和多模态制造数据集
三个要点
✔️ 在制造业环境中,畸变现象并不经常发生,而创建机器学习模型的不平衡数据问题始终存在。
✔️ 南卡罗来纳大学未来工厂实验室为这些应用创建了数据集。
✔️ 收集了两类数据集:模拟数据集和多模态数据集,后者还包括来自同步系统的图像数据。
Analog and Multi-modal Manufacturing Datasets Acquired on the Future Factories Platform
written by Ramy Harik, Fadi El Kalach, Jad Samaha, Devon Clark, Drew Sander, Philip Samaha, Liam Burns, Ibrahim Yousif, Victor Gadow, Theodros Tarekegne, Nitol Saha
[Submitted on 28 Jan 2024]
Comments: accepted by arXiv
Subjects: Machine Learning (stat.ML); Machine Learning (cs.LG); Image and Video Processing (eess.IV); Systems and Control (eess.SY)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文介绍了 2023 年 12 月 11 日和 12 日在南卡罗来纳大学未来工厂实验室收集的两个工业数据集。这些数据集由一条制造装配线生成,装配线上的执行器、控制机制和传感器均采用工业标准。这两个数据集是通过装配线连续运行 30 小时(略有过滤)并从整个系统中安装的传感器收集数据而同时生成的。在运行过程中,由于需要手动拆卸最终装配所需的部件,装配操作中也出现了缺陷。生成的数据集包括一个时间序列模拟数据集和一个时间序列多模态数据集,其中包含系统图像和模拟数据。生成这些数据集的目的是为进一步研究增强制造智能提供工具。来自实际制造业的数据集可能很少,更不用说存在异常和缺陷的数据集了。因此,这些数据集旨在填补这一空白,为研究人员建立和训练适用于制造业的人工智能模型奠定基础。最后,这些数据集是 "未来工厂 "实验室发布的首批试验数据,未来可能会进一步调整,以满足更多研究人员的需求。
介绍
在过去的 100 年中,美国已从一个自主且相互联系的制造业强国转变为一个严重依赖其他国家的国家。麦肯锡全球研究院的一项研究发现,工业 4.0 的关键要素包括优化流程、提高设施利用率、改善供应链管理和提高库存管理效率。报告中列出了这些要素。向数据驱动型制造业的转变已导致人工智能在预测性维护、质量控制、工人安全和流程优化等关键领域产生重大影响。 因此,对工业数据集的需求与日俱增。然而,在生成工业数据集方面存在许多挑战。这些挑战包括数据隐私和安全问题、制造过程的复杂性、生成包含异常值的数据集的难度以及处理大型数据集的难度。为了应对这些挑战,南卡罗来纳大学未来工厂实验室展示了两个使用工业标准在生产线上生成的数据集,目的是为改进制造业智能化的研究提供支持。实验室收集了一个模拟数据集和多模态数据集,后者还包括来自同步系统的图像数据。预计这些数据集将有助于人工智能在制造业中的应用。
实验装置
未来工厂实验室试验台包括五个安川机器人手臂、输送系统和材料处理站。
机器人手臂在许多制造流程中发挥着核心作用:两个安川 HC10 机器人手臂负责材料的输入和输出。同时,三个安川 GP8 机器人手臂负责组装和拆卸产品。这些机械手臂由 YRC1000 和 YRC1000micro 机器人控制器控制。由于这些机械臂在重复性任务中速度快、精度高,因此能够以协调的方式组装产品。每个机械臂都配有定制设计的 3D 打印机抓手。
输送系统在将产品输送到各自工位方面发挥着重要作用:四条输送带相互连接,在机械臂之间循环。这些传送带由 Sinamics GS120 变频驱动器 (VFD) 控制,该驱动器与可编程逻辑控制器 (PLC) 通信。该输送系统可实现机械臂之间的协调。
PLC 负责试验台设备和机器之间的通信,试验台使用的是西门子 S7-1500 PLC,使用西门子全集成自动化 (TIA) Portal 工程软件进行编程。PLC 通过 Profinet 通信协议与机器人控制器和传送带 VFD 相连。
组装过程如下。首先,R01 机械臂从材料处理站取出未组装的火箭部件,放到传送带上。当传送带把这些部件送到 R02 工位时,R02 机械臂就会把两个机身部件放到组装台上。接着,传送带将部件送到 R03 站,R03 机械臂在此安装基座,并组装从 R02 收到的机身部件。最后,R03 装上机头锥,形成成品,输送机将成品送到 R04 工位,R04 机械臂在此拆卸成品,使其恢复原状,准备下一个循环。这种组装-拆卸循环重复进行 30 个小时。
图 1:未来 Factorie试验台设置(视图 1) |
图 2:未来 Factorie试验台设置(视图 2) |
数据统计
模拟数据集
该数据集包含组装和拆卸过程中 30 个小时的运行数据。实验结束后,我们下载了论文附录中显示的各种传感器数值,并将其分类到每个设备的多个 CSV 文件中(例如,R01_Data.csv 包含 R01 的信号)。
此外,还对数据进行了清理:在 30 个小时的运行过程中,试验台经历了少量的停机时间,在此期间的数据被认为没有意义。试验台没有运行的时间段被过滤掉,最终的数据集包括 325 个完整的周期。
在 30 个小时的运行过程中,小组成员还通过手动从托盘中取出火箭的部件再现了一些异常现象。这些异常现象根据四个部件的缺失数量被分为三类: 1.
- 无鼻锥
- 没有身体2,没有鼻子。
- NoBody1, NoBody2, NoNose。
这些异常在模拟数据集中都有注释。换句话说,周期 1 没有异常,周期 50 有 NoNoseCone 异常,以此类推。除了没有图像数据和异常注释外,该数据集与多模态数据集的主要区别在于数据采集速率为 10 Hz。
图 2:模拟数据集结构 |
多模态数据集
与模拟数据集一样,多模态数据集也是在组装和拆卸火箭原型时产生的。它是在相同的运行时间和相同的环境下收集的。除了附录中显示的传感器数值外,这组数据还包括安装在试验台两侧的两台照相机拍摄的同步图像数据。因此,数据采集速率降低到 2-3 Hz,在整个运行时间内共采集了 166 000 条记录。
模拟数据集采用 CSV 文件表的结构,而多模态数据集则采用不同的结构。如图 3 所示,图像被分成若干批次,每批 1000 个样本,并存储在每个相机视图的单独文件夹中。每个批次都有一个 JSON 文件,其中包含同步传感器值和相应的图像路径。由于记录数量庞大,数据集文件夹总共包含 166 个图像批次文件夹及其各自的 JSON 文件。
图 3:多模态数据集的结构。 |
结论
本文介绍的数据集向公众广泛开放,可用于提高制造业智能化水平的研究。
这些数据集是在南卡罗来纳大学未来工厂实验室收集的。模拟数据集包含 30 个小时的产品组装和拆卸操作数据。这些数据还注释了三种人为引入的异常情况(NoNoseCone、NoBody2,NoNose 和 NoBody1,NoBody2,NoNose)。另一方面,多模态数据集包含模拟数据以及来自两台摄像机的同步图像数据。
这些数据集旨在支持人工智能在制造业中的应用。来自制造现场的数据通常很难获得,但包含异常值的数据集尤其极为罕见。因此,这些数据集有望成为研究人员的宝贵资源。
今后还将对数据进行进一步调整,以满足研究人员的需求。例如,正在考虑改变异常现象的类型和频率、增加传感器数值和提高图像分辨率。此外,还计划发布更大的数据集。
未来工厂实验室团队希望通过这种方式为制造业人工智能的发展做出贡献。这些数据集将有助于研究人员开展研究活动。
与本文相关的类别