未来工場プラットフォームで取得されたアナログおよびマルチモーダル製造データセット
3つの要点
✔️ 製造業現場では、異状の発生頻度は低く、機械学習のモデルを作成するにはデータがアンバランスであるという問題が存在
✔️ サウスカロライナ大学のFuture Factories Labで、こういった用途に向けてデータセットを作成
✔️ アナログデータセットとマルチモーダルデータセットの2種類が収集されており、後者には同期したシステムの画像データも含まれる
Analog and Multi-modal Manufacturing Datasets Acquired on the Future Factories Platform
written by Ramy Harik, Fadi El Kalach, Jad Samaha, Devon Clark, Drew Sander, Philip Samaha, Liam Burns, Ibrahim Yousif, Victor Gadow, Theodros Tarekegne, Nitol Saha
[Submitted on 28 Jan 2024]
Comments: accepted by arXiv
Subjects: Machine Learning (stat.ML); Machine Learning (cs.LG); Image and Video Processing (eess.IV); Systems and Control (eess.SY)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
本論文では、2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された2つの産業用データセットを紹介します。これらのデータセットは、アクチュエータ、制御機構、トランスデューサに関して工業規格を利用した製造組立ラインによって生成されたものです。この2つのデータセットは、組立ラインを連続30時間稼動させ(わずかなフィルタリングを実施)、システム全体に装備されたセンサーからデータを収集することで、同時に生成されました。運転中、最終組立に必要な部品を手作業で取り外すことで、組立作業に欠陥も発生しました。生成されたデータセットには、時系列のアナログデータセットと、アナログデータとともにシステムの画像を含む時系列のマルチモーダルデータセットがあります。これらのデータセットは、製造業のインテリジェンス強化に向けた研究を進めるためのツールを提供する目的で生成されました。実際の製造業のデータセットは、異常や欠陥のあるデータセットはもちろんのこと、乏しい場合があります。そのため、これらのデータセットはこのギャップに対処し、製造業に適用可能な人工知能モデルを構築して訓練するための基盤を研究者に提供することを目的としています。最後に、これらのデータセットは、Future Factoriesラボから公開されたデータの最初の試行であり、今後より多くの研究者のニーズに合うようにさらに調整されるようです。
はじめに
過去100年間、アメリカは自律的で相互接続された製造大国から、他国に大きく依存する国に変わってきました。この移行は、製造業にとって真の危険と障壁をもたらしています。McKinsey Global Instituteの研究では、Industry 4.0に根ざした主要な要素として、最適化されたプロセス、設備の利用率の向上、サプライチェーン管理の改善、在庫管理の効率化などが挙げられています。データ駆動型の製造への移行により、予知保守、品質管理、作業者の安全性、プロセスの最適化などの重要な分野に人工知能が大きな影響を与えています。 そのため、産業データセットの必要性が高まっています。しかし、産業データセットの生成には多くの課題があります。データプライバシーと安全性の懸念、製造プロセスの複雑さ、異常値を含むデータセットの生成の難しさ、大規模なデータの扱いの困難さなどです。これらの課題に取り組むため、サウスカロライナ大学のFuture Factories Labでは、製造業における知能の向上に向けた研究を支援することを目的として、産業標準を使用する製造ラインで生成された2つのデータセットを紹介しています。アナログデータセットとマルチモーダルデータセットの2種類が収集されており、後者には同期したシステムの画像データも含まれています。これらのデータセットは、製造業における人工知能の適用に役立つことが期待されています。
実験セットアップ
Future Factories Labのテストベッドには、5台のYaskawaロボットアーム、コンベヤシステム、マテリアルハンドリングステーションが含まれています。
ロボットアームは、多くの製造工程の中心的な役割を果たしています。2台のYaskawa HC10ロボットアームは、材料の投入と出力を担当しています。一方、3台のYaskawa GP8ロボットアームは、製品の組み立てと分解を行っています。これらのロボットアームは、YRC1000およびYRC1000microのロボットコントローラによって制御されています。高速かつ高精度な繰り返し作業が可能なため、これらのロボットアームは協調して製品の組み立てを行うことができます。各ロボットアームには、カスタム設計の3Dプリンタ製グリッパーが取り付けられています。
コンベヤシステムは、製品を各ステーションへ運ぶ重要な役割を担っています。4本のコンベヤベルトが相互に接続されており、ロボットアーム間を循環する仕組みになっています。これらのコンベヤは、Sinamics GS120可変周波数ドライブ(VFD)によって制御されており、プログラマブルロジックコントローラ(PLC)と通信しています。このコンベヤシステムにより、ロボットアーム間の協調が可能になっています。
PLCは、テストベッド内のデバイスと機械間の通信を司っています。Siemens S7-1500 PLCが使用されており、Siemens Totally Integrated Automation (TIA) Portalエンジニアリングソフトウェアを使ってプログラミングされています。TIAでは、デバイスレイアウトの設定と管理、アセンブリプロセスを実行するための制御ロジックの記述が行われます。PLCは、Profinet通信プロトコルを使ってロボットコントローラやコンベヤVFDと接続されています。
アセンブリプロセスは以下のように行われます。まず、R01ロボットアームがマテリアルハンドリングステーションからロケットの未組み立て部品を取り出し、コンベヤに載せます。コンベヤによって部品がR02ステーションに運ばれると、R02ロボットアームが2つの胴体パーツを取り出して組み立て台に置きます。次にコンベヤがR03ステーションまで運ぶと、R03ロボットアームが台座を取り付け、R02から受け取った胴体パーツを組み立てます。最後にR03がノーズコーンを取り付けて完成品を作り、コンベヤがR04ステーションまで運びます。R04ロボットアームは完成品を分解し、元の状態に戻して次のサイクルに備えます。このようなアセンブリ・ディスアセンブリのサイクルが、30時間にわたって繰り返されています。
図1:Future Factorieテストベッドのセットアップ(View 1) |
図2:Future Factorieテストベッドのセットアップ(View 2) |
データメトリクス
アナログデータセット
このデータセットには、アセンブリとディスアセンブリのプロセスを30時間にわたって運転したデータが含まれています。実験の完了後、論文付録に示されているさまざまなセンサ値がダウンロードされ、設備ごとに複数のCSVファイルに分類されました(例: R01_Data.csvにはR01のシグナルが含まれています)。
さらに、データのクリーニングも行われました。30時間の運転中、テストベッドはわずかな停止時間を経験し、その間のデータは意味がないと判断されました。テストベッドが稼働していない期間はフィルタリングされ、最終的なデータセットは325の完全なサイクルで構成されています。
30時間の運転中、チームメンバーが手動でロケットの部品をトレイから取り除くことで、いくつかの異常も再現されました。これらの異常は、4つの部品から何個欠けているかによって3つのカテゴリに分類されています:
- NoNoseCone
- NoBody2,NoNose
- NoBody1,NoBody2,NoNose
これらの異常は、アナログデータセットに注釈として付けられています。つまり、サイクル1は異常ではなく、サイクル50にはNoNoseConeの異常があるといった具合です。画像データがないことと異常の注釈以外にも、このデータセットと多モーダルデータセットの大きな違いは、データ取得レートが10Hzであることです。
図2:アナログ・データセットの構成 |
マルチモーダルデータセット
アナログデータセットと同様に、マルチモーダルデータセットもロケットプロトタイプのアセンブリとディスアセンブリから生成されました。同じ実行時間と状況で収集されています。付録に示されているセンサ値に加えて、このデータセットには、テストベッドの両側に取り付けられた2台のカメラで撮影された同期画像データも含まれています。その結果、データ取得レートは2-3Hzに低下し、全実行時間を通して合計166,000レコードが収集されています。
アナログデータセットがCSVファイルの表形式で構成されているのに対し、マルチモーダルデータセットは異なる構造になっています。図3に示すように、画像は1000サンプルずつのバッチに分割され、それぞれのカメラビューについて別のフォルダに保存されています。各バッチには、同期したセンサ値とそれに対応する画像パスが含まれるJSONファイルが用意されています。レコード数が多いため、データセットフォルダには合計166の画像バッチフォルダとそれぞれのJSONファイルが含まれています。
図3:マルチモーダルデータセットの構成 |
結論
この論文で紹介したデータセットは、製造業における知能の向上に向けた研究に活用できるよう、広く一般に公開されています。
これらのデータセットは、サウスカロライナ大学のFuture Factories Labで収集されたものです。アナログデータセットには、30時間にわたる製品のアセンブリとディスアセンブリの運転データが含まれています。データには、人為的に導入された3種類の異常状態(NoNoseCone、NoBody2,NoNose、NoBody1,NoBody2,NoNose)の注釈も付けられています。一方、マルチモーダルデータセットには、アナログデータに加えて、2台のカメラで撮影された同期画像データも含まれています。
これらのデータセットは、製造業における人工知能の適用を支援することを目的としています。製造現場のデータは一般に入手が困難ですが、特に異常値を含むデータセットは非常に希少です。そのため、これらのデータセットは研究者にとって貴重な資源となることが期待されています。
今後、研究者のニーズに合わせて、さらにデータの調整が行われる予定です。例えば、異常の種類や頻度の変更、センサ値の追加、画像解像度の向上などが検討されています。また、より大規模なデータセットの公開も計画されています。
このように、Future Factories Labのチームは、製造業における人工知能の発展に貢献することを目指しています。これらのデータセットが、研究者の研究活動に役立つことでしょう。
この記事に関するカテゴリー