
智能制造过程中的拓扑数据分析--最新技术调查。
三个要点
✔️ 有关工业 4.0 中拓扑数据分析 (TDA) 的文献调查
✔️ TDA 可用于识别传统方法难以发现的数据中的模式和关系
✔️ TDA 在工业生产和制造流程领域的应用事实证明,TDA 是一种特别适用于分析来自工业生产和制造过程中的传感器和其他设备的复杂数据集的方法。
Topological Data Analysis in smart manufacturing processes -- A survey on the state of the art
written by Martin Uray, Barbara Giunti, Michael Kerber, Stefan Huber
(Submitted on 13 Oct 2023)
Comments: Preprint still under review
Subjects: Machine Learning (cs.LG); Algebraic Topology (math.AT); Applications (stat.AP)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
拓扑数据分析(TDA)是一种利用拓扑技术分析复杂多维数据的数学方法,已在医学、材料科学和生物学等领域得到广泛而成功的应用。本调查报告总结了拓扑数据分析在另一个应用领域的最新进展:工业 4.0 背景下的工业生产和制造。我们对 TDA 在工业生产和制造环境中的应用进行了严格、可重复的文献检索。根据应用领域和制造过程中的输入数据类型,对结果进行了分类和分析。重点介绍了 TDA 及其工具在这一领域的主要优势,以及其面临的挑战和未来的可能性。最后,还讨论了哪些 TDA 方法在行业中未得到充分利用(行业的特定领域)以及已确定的应用类型。
这张图片由 ChatGPT 制作,展示了这张纸的印象。
介绍
工业 4.0 是第四次工业革命,结合了数字技术和物理技术。这场革命正在改变制造流程,促进智能生产系统的发展,使其能够实时收集和分析数据,做出智能决策,并适应不断变化的条件,如定制产品和按需生产。拓扑学是研究物体形状的数学领域。最近,拓扑数据分析(TDA)成为数据分析、计算机科学和拓扑学的交叉领域,特别是后者的应用;TDA 已被证明在异常检测、图像处理、基因组测序和预测性维护等广泛应用中非常有用。然而,它在工业 4.0 中的潜力还有待发挥。作者认为,TDA 尤其适用于智能生产系统。这是因为它可用于从传感器和其他设备生成的复杂数据集中提取洞察力,并据此做出决策。此外,使用 TDA 还能识别传统方法难以发现的数据模式和关系。本研究回顾了 TDA 目前在制造和生产流程中的应用,并确定了这些领域未来的研究方向。
拓扑数据分析(TDA)的应用多种多样,单个研究人员不可能跟踪所有的发展。这就提出了一个问题:如何构建拓扑数据分析应用领域的界面,以便理论家和实践者都能使用。最近的一项举措是 DONUT,这是一个搜索引擎,允许用户以简单的方式搜索 TDA 应用。另一种构建知识结构的方法是通过科学调查文章,总结和比较将 TDA 与应用设置联系起来的不同方法。这些文章通常侧重于解释理论,并介绍一些应用实例,以展示可以从 TDA 中获益的领域的多样性;如果对 TDA 的所有应用进行全面调查,将导致文件篇幅过大,因此这种方法是合理的。确实如此。目前还找不到其他关于 TDA 在工业生产和制造过程中的应用的综述论文,尤其是在 TDA 理论成果和工业应用之间架起桥梁的综述作品。另一方面,弥合其他领域差距的文献综述和有关制造过程的文献调查确实存在,但它们并非专门针对 TDA。作者回顾了机器学习(ML)和其他数据分析技术在半导体制造的电子设计自动化中的应用,并简要提到了映射器算法在该制造过程中的应用。关于智能工厂的大数据分析主题,文章指出 TDA 方法(如用于数据聚类的映射器算法)很有前景,但没有提供 TDA 实际应用的实证研究。最近一篇关于机械加工中颤振检测现状的综述强调了该领域的大量研究以及将 TDA 应用于特定问题的潜力。此外,还对当前有关金属成型和冲裁技术的数据驱动方法的文献进行了综述,其中明确提到了统一曲面逼近和投影(UMAP)方法。然而,工业 4.0 和 TDA 还包括更多领域和方法。大数据是与工业 4.0 相关的另一个领域:2017 年发布的一项调查旨在弥合几何和拓扑方法的理论成果与这一工程学科之间的差距。此外,还讨论了持久同构(PH:Persistent Homology)和映射器算法在增材制造领域的应用,3D 打印是该领域的一项优势技术。这里提出了不同类型的调查,专门针对工业应用领域的专家。
据作者所知,这是第一篇探讨以下问题的论文TDA 目前在工业制造和生产中有哪些应用?还有哪些应用是缺失的,因此应予以重点关注?
本文概述了当前有关在工业生产和制造过程中应用技术DA的文献。我们相信,TDA 领域的理论家和工业生产领域的实践者都会对这份调查报告感兴趣。虽然这两个领域都非常活跃,出版物数量也在不断增加,但仍然缺乏相互认可。本调查旨在弥合这一差距,促进这两个领域之间的思想和方法交流。
本文的贡献如下。
1) 概述有关在工业生产和制造工艺领域应用 TDA 的文献;
2) 指出所使用的领域和方法组合;
3) 强调未得到充分利用的应用领域和方法组合。
工业 4.0 中的智能制造
工业 4.0
工业 4.0 "一词是德国政府在 2010 年代初提出的,目的是推动被称为 "第四次工业革命 "的运动。这场运动要求提高生产的灵活性,增强机器操作的适应性,以及机器、生产线、工厂甚至整个供应链的智能化和自主化。这使得批量 1 生产、大规模定制和生产优化不仅可以以机器为单位实现,还可以在整个价值链中实现,从而促进新的业务和运营模式。工业 4.0 还产生了 "智能工厂 "和 "认知工厂 "等术语。然而,工业 4.0 的范畴比产品生产更为广泛。通过融合同时发展的其他技术,例如从基因测序到纳米技术,从可再生能源到量子计算,有可能创造出创新和革命性的产品。这些系统的运行需要工业 4.0 的四项设计原则。它们是
- 互联"(传感器、机器和人类相互关联)、
- 信息透明"(即系统中所有组成部分的信息都是透明的)、
- 技术支持"(技术设备协助决策、解决问题或协助或接管困难或危险的任务)。
- 分散决策"(边缘决策而非中央实体决策)
是。网络物理系统可以根据所掌握的信息自行决策。在 Erboz 的评论中,工业 4.0 系统的关键组成部分包括:大数据和分析、自主机器人、仿真、横向和纵向系统集成、工业物联网、云、网络安全、增材制造和增强现实(AR)、网络安全、增材制造和增强现实(AR)。对于工业 4.0 背景下的网络安全,也指操作技术(OT)安全;OT 安全是 OT 系统的网络安全领域。术语 "增材制造 "指的是工业生产中的三维打印技术。在这种技术中,三维物体是在计算机控制的过程中通过分层材料制造出来的。
生产和制造
该部分解释说,"制造 "和 "生产 "这两个术语是指创造产品的过程。本文指出,在某些领域,也有 "制造 "一词,如半导体。尽管 "制造"、"生产 "和 "制造 "这三个词的含义不同,但本文仍将它们统称为 "生产 "和 "制造 "的同义词。产品的制造涉及工业机械在生产线上应用的一系列工艺步骤。在设计过程的开始阶段,首先要确定产品要求,然后进行概念设计和评估。在此基础上,创建原型并绘制工业复制图纸。在这里,"工业 "意味着可重复、高效和有效。这些图纸和产品要求确定了选择材料、工艺和生产设备的规格。在生产的同时,还要进行检验和质量保证,并在产品包装前完成。制造或生产工程是指与所有生产流程有关的工程领域。这一领域包括生产流程的规划和优化。图 1 依次显示了制造工程流程的各个阶段。总的来说,与传统制造相比,工业 4.0 中的智能制造提出了新的挑战。在这里,需要使用更多的策略和技术来改进制造流程,满足融入工业 4.0 的需求。有关智能制造系统的技术和架构概述,请参见另一份文件。
图 1:制造工程流程,包括产品制造的各个阶段,从产品定义开始,到最终量产交付。为便于阅读,图中省略了反馈连接。 |
拓扑数据分析
拓扑数据分析(TDA)领域主要分为三种方法:映射算法(Mapper algorithm)、持久同源性(PH)和统一曲面逼近与投影(UMAP)。所有这些方法的共同点是,首先将手头的数据转换成合适的几何表示,然后分析其拓扑特性。一个重要的现象是,在分析数据时需要处理许多参数(调整、删除、加权等)。拓扑学是一门处理几何的数学学科,由于数据通常包含几何,拓扑学可用于处理与几何 "相关 "的参数。
这三种方法处理参数的方式各不相同。映射器算法将参数(及其值)组合成不同的组,并对输入进行相应的聚类。这些分组往往能在数据集中发现以前未知的关系。PH 算法则无需选择参数阈值,而是根据所有可能的替代方案对数据进行分析。它可以跟踪数据中的几何形状是如何沿着阈值演变的。这使其特别适用于自动化生产,而 UMAP 是一种降维方法,它通过将数据投影到更易于分析的低维环境空间中来去除一些参数。
图 2 展示了每种方法的流程,后续章节将对其进行更详细的讨论。
图 2 (a) Mapper 管道。(b) 持久同源管道。(c) UMAP 管道。 |
绘图者算法
映射算法是一种概念简单的方法,考虑的唯一拓扑属性是连通性。从本质上讲,这是一种将对象集 V 映射到低维空间 Rd 并构建聚类图的方法。映射是通过 PCA 或自动编码器等方法完成的。这一步非常重要,因为在输入设置中相距甚远的两个元素,在低维空间中可能会被紧密地组合在一起,从而无法检测到这些关联。接下来,f(V) 的图像会被 U1, ., Uk 来覆盖它们。每个 Ui 都会被拉回 Rn,并使用所选的聚类方法进行聚类(例如,如果 V 是欧几里得空间,则使用固定 k 的 k-means,对于更一般的 V,则使用核 k-means)。所有 f^-1(Ui)聚类构成映射图 G 的顶点,如果这些聚类相交,则为 G 添加边。聚类在原始点集的空间中进行,但以过滤函数和覆盖范围为指导。映射图用于探索性数据分析。它通常在图中寻找脊线(耀斑)。这些子群在多个尺度(区间)上相互连接,并在这些尺度上与其他对象区分开来。然后(使用传统的数据分析方法)对这些子群进行分析,找出它们的特征。
举个实际例子,罗德里戈-里维拉-卡斯特罗(Rodrigo Rivera-Castro)等人的论文旨在改进最先进的需求预测方法。问题如下:制造商需要预测产品及其(分层)组件的需求。每个组件的需求频率都是一个时间序列,并标有最佳拟合预测模型。这些时间序列被纳入映射图中,并根据最合适的预测模型划分为群组。这种方法的最大优点是,不仅能提高对预测模型的理解,还能有效地为新成分选择预测模型。实际上,将 f(V) 分成U1, ...,Un,是映射算法的主要障碍,结果的可解释性完全取决于这一选择。有几种标准选择是已知的,但要从映射器管道中获得有意义的见解,通常需要领域专家的先验知识。尽管如此,映射算法仍应被视为一种功能强大、用途广泛的交互式工具,它可以揭示数据集中隐藏的连接性。
持久同源性(PH)
本段介绍代数拓扑学中的一个基本概念--同调。同调用于识别不能相互连续变形的形状。对于 k=0、1、2,这相当于形状中的连通部件、隧道和空洞的数量。重要的是,给定两个形状之间的连续映射,例如从 X 到 Y 的包含,这些洞之间就有一个定义明确的映射。
PH 管道为每个尺度参数 r≥0 构建一系列扩展形状 Xr(称为滤波),并观察当 Xr 的增长被视为一个连续过程时,不同维度的孔是如何出现和消失的。这种拓扑特征的演变可以用条形码(又称持久图)来表示。这是一组区间(条形),代表过滤中孔的持续时间。条形图的长度称为相应拓扑特征的持续时间。
杰弗里-马勒(Jeffrey Mahler)等人的研究成果就是一个实际例子。在制造业中,抓取物体是一项众所周知的任务。除了形状闭合和力闭合抓手外,还可以考虑能量限制笼。作用在物体 O 上的力场 f 会将物体推向抓手。因此,物体需要一定的能量才能从夹具中逃脱。对逃逸能量设定一个限制,就会产生一个能量受限的笼子。本文的目的就是要找出这种情况。为此,作者考虑了 O 的设置空间,对自由空间进行了采样,使用阿尔法复数对其进行了近似,并根据每个单元的能量势能构建了一个超水平集合过滤。集合空间中的能量限制笼在持久性图中显示为持久性同调类。在这里,出生时间对应于逃逸势能,死亡时间对应于笼子中最深的势能,而持久性则对应于作为这些势能之差的逃逸能量。这种框架的优点之一是,由于通常有自然选择过滤的选项,因此管道可以更容易地实现自动化。关于如何比较两个数据集之间的条形码,以及如何将 PH 整合到 ML 方法(如基于核的方法和神经网络)中,也有丰富的理论。完善的理论和所获特征的可解释性有助于 PH 在实践中取得成功。此外,还有许多计算过滤和条形码并对其进行比较的高效算法。然而,尽管取得了这些进步,人们还是注意到 PH 不易扩展到非常大的数据集。这与概念简单的映射器算法和接下来介绍的专门用于大型数据集的 UMAP 形成了鲜明对比。
图 3. 左侧为能量约束笼:给定力场 f,对于给定姿态的物体(蓝色),需要一定的能量才能从抓手(黑色)中逃脱。右侧是持久性图的各点:持久性与所需的逃脱能量相对应。 |
统一流形逼近和投影(UMAP)
它描述了存在于高维环境中的数据,以及 UMAP(Uniform Manifold Approximation and Projection,统一曲面逼近和投影)作为减少这些维度的一种手段所产生的效果。数据通常包含多维信息,如空间维度、成本、材料和生产中的层级位置。然而,在某些分析中,这些信息很多都是不必要的,甚至会妨碍理解。因此,有时需要在实际分析之前减少数据的维度;UMAP 非常适合这项任务。
UMAP 的工作原理是根据输入点创建一个加权图,然后将其投影到一个较低维度的空间,从而获得另一个更简单的图,该图保留了被认为重要的信息。后一种选择是通过选择适当的投影来实现的。图的构建并不简单,必须保留点的局部距离信息。它基于 k 近邻法和模糊结构,其中模糊结构是对属于一个集合的元素进行加权的一种方法(不是完全隶属或不隶属,但元素可以模糊地属于一个集合)。由于这种结构非常抽象,我们在此不再详述。
以电磁设备的增材制造为例。在这种情况下,制造异常(几何信息)会导致不可预测的性能问题。因此,除了非几何信息和电磁性能信息外,所有信息都会被忽略,这正是 UMAP 在这种情况下所做的工作。剩下的信息被送入 ML 流水线,其输出是几何缺陷与性能之间的关系;UMAP 的输出与映射算法或 PH 的输出不同,不能直接解释,需要进一步分析(如使用 ML)。不过,UMAP 在工业内外都有重要应用。
调查方法
为确保研究结果的可重复性,我们决定以详尽的文献综述方式进行综述,其中每个步骤都有记录并可重复。这项工作要解决的问题是,对技术和工艺发展局关于工业生产和制造工艺应用的方法进行审查。研究方法的流水线如下:定义合适的搜索关键词、确定要搜索的数字图书馆,以及过滤所得作品。在此对这些步骤进行详细说明。
关键词和查询
本节介绍如何为文献综述定义搜索查询。搜索查询由两个类别定义:"方法 "和 "领域"。方法 "类别中的关键词用于查找拓扑数据分析 (TDA) 工具的应用。另一方面,"领域 "类别中的关键词描述了工业制造流程中的应用和任务。图 4 显示了这些类别和确定的关键词。这两个类别的交叉点就是本次文献综述的搜索空间。
图 4:"领域 "类别中的 13 个关键词集(左侧部分)和 "方法 "类别中的 4 个关键词集(右侧部分)的维恩图。两部分的交叉点表示文献检索的范围。注:星号 "*"表示通配符,允许考虑关键词的变体(如技术和科技)。 |
为了创建有意义的搜索查询,每个类别中的关键词都使用 "OR "语句连接起来。使用布尔 "AND "运算符将两个类别的搜索字符串结果连接起来。由此产生的单一搜索查询用于从数字图书馆收集文献。
数字图书馆
文献综述中使用的五个数字图书馆是
IEEE (IEEE Xplore Digital Library)
Springer (SpringerLink)
Elsevier (ScienceDirect)
ACM (ACM Digital Library)
The American Society of Mechanical Engineers (ASME) (ASME Digital Collection)美国机械工程师学会(ASME)(ASME 数字图书馆)
之所以选择这些数字图书馆,是因为它们是计算机科学与工程(尤其是 TDA 和 ML 应用)以及工业工程领域最著名的科学出版物数字图书馆。唯一的例外是 ASME 数字图书馆。之所以选择它,是因为在谷歌学术(Google Scholar)中使用一组有限的关键字进行了初步的半详尽搜索,这与 Maximilian E. Tschuchnig 等人使用的方法类似。之所以选择它,是因为它显示
IEEE Xplore、SpringerLink 和 ACM 数字图书馆提供的搜索界面允许使用生成的搜索字符串;ScienceDirect 的界面受到布尔表达式和搜索字符串组合的限制。限制。由于布尔运算符 "OR "可与布尔运算符 "AND "进行分配,因此搜索字符串会被拆分为多个搜索字符串,并与布尔运算符 "OR "进行组合。这样可以减少每个搜索字符串的关键词数量,并产生相同的搜索结果。最后,ASME 数字图书馆不提供高级搜索功能,每次查询只支持一个布尔运算符。在这种特殊情况下,需要独立使用 13 x 4 = 52 个关键词组合。由于出版物数量较少,因此这种方法是可行的。
从所有这些数字图书馆中,所有成果都通过 Zotero Reference Manager 进行收集和存储。通过数字对象标识符 (DOI) 自动提取每份出版物的元数据。
筛选结果
介绍了文献综述的筛选过程。搜索结果不局限于特定时间段的原因是,拓扑数据分析(TDA)仍是一个年轻的研究领域,而拓扑数据分析的应用,尤其是在工业制造流程领域的应用,更是刚刚起步。搜索时间为 2023 年 6 月底,截至该日期发表的所有作品均在考虑之列。筛选过程分阶段进行,并根据以下标准删除条目
重复
相关出版物类型
参考资料语言
全文的可用性
作品背景
过滤程序的第一步是删除根据 DOI 和出版物标题确定的重复内容。如果根据标题发现了重复的内容,则对这些重复内容进行人工识别。每个重复的内容都会被删除,只保留一个出版物实例。为了提供有意义、高质量的综述,只考虑符合特定质量标准的出版物(即经过同行评议的 出版物)。根据这一要求,本次审查只考虑了会议论文集和期刊出版物。由于数字图书馆没有提供同行评议过程的状况,因此假定这些出版物是经过同行评议的。其他参考资料,例如预印本、演示文稿、书籍和报告等,不在分析之列。为确保从出版物中正确提取信息,并确保这些信息一般具有可复制性,只考虑有英文版 全文的出版物。能否提供全文在很大程度上取决于我们的机构能否访问和订阅这些数字图书馆。因此,我们对所有没有全文的出版物进行了人工筛选,以确保不遗漏任何相关出版物。在全文缺失但相关的情况下,我们会搜索预印本服务器和作者网页等其他来源来检索全文。虽然没有必要执行这一程序,但大多数出版物的全文都可以在数字图书馆中找到。对半自动筛选的参考文献进行上下文分析。因此,对所有出版物都进行了人工筛选。在此,在出版物中搜索方法和领域类别中的关键词。这些关键词必须出现在与贡献相关的部分。特别是,仅在相关工作或观点中提及方法和领域是不够的。经过这一筛选程序后,本研究只进一步考虑了剩余的出版物。总共筛选出 4683 项结果,27 篇出版物被认为与我们的研究问题相关。我们对这些出版物进行了详细筛选。在此筛选基础上,人工将出版物分为不同类别,然后进行展示。
结果
这说明拓扑数据分析(TDA)方法不仅可用于严格的数据分析任务,还可用于验证其他方法所做的分析。例如,在一篇论文中,持久性同源性(PH)被用于评估,而在多篇论文中,UMAP 被用于同样的目的。不过,由于本研究的重点是 TDA 的直接应用,这些任务不包括在下面的讨论中。
在文献搜索过程中,还发现了来自制造业以外的生产部门(如石油生产)的研究。由于这些研究与制造工艺无关,因此未纳入本研究。此外,其他研究也提到了 TDA 方法在制造过程中的应用,但尚未开展实证工作。这包括 TDA 方法在智能制造和 3D 打印混合双胞胎中的潜在应用。
共有 27 件作品被认定与本研究相关。根据其在制造过程中的应用,每件作品都被归入三个群组(A-C)中的一个。确定的组别包括
A: 产品级质量控制
B: 过程级质量控制
C: 制造工程
相关作品列于表 I。在该表中,每部作品都被归入三个组群(A-C)中的一个,并根据所使用的 TDA 方法进行排列。图 5 提供了这些作品与所归属组群的关系概览。图中还显示了每个应用领域所使用的 TDA 方法。从所列作品的出版日期可以看出,在过去几年中,人们对制造过程中的 TDA 方法的兴趣与日俱增:使用 TDA 方法的第一批出版物发表于 2016 年;从 2022 年开始,人们对 TDA 方法的兴趣显著增加;2022 年之后的出版物数量比 2022 年之前的出版物数量要多。比 2022 年之前的年份要多。在 2020 年没有发现与本研究工作相关的出版物。图 6 显示了按年份分列的出版物绝对数量。虽然图 6 中的插图似乎显示,到 2023 年,人们对制造过程中的 TDA 方法的兴趣有所下降,但应该注意的是,2023 年的数据并不完整,本研究只包括 2023 年 6 月 30 日之前添加到数字图书馆的出版物。表 II 提供了更详细的结果摘要。该表显示了每件作品、相关集群、所使用的 TDA 方法以及用于解决任务的输入数据类型。输入数据类型摘自参考文献。最常见的数据类型是时间序列数据,其次是点云和标量字段。此外,还发现有一篇文章将 TDA 方法应用于文本日志文件和标注图形。在本节的其余部分,将讨论已确定的三个应用集群。对于每个应用领域,我们都会进行简要说明,然后对相关作品进行简要概述。有关这些工作的更多信息,请参阅原始参考出版物。
图 5:该图显示了已确定的组群与工程之间的关系。此外,在每个组群的上方还显示了所使用的 TDA 方法。括号中的数字表示所涉出版物的数量。 |
图 6. 每年相关论文的数量。 |
产品级质量控制
在所发现的作品中,有两种不同的产品或生产过程质量控制方法。在第一种方法中,生产质量是根据所生产的产品来评估的;在第二种方法中,质量是通过对生产过程的观察来评估的。本节重点介绍与第一类有关的结果。
在产品层面使用 TDA 方法可以非常有效地分析生产产品的质量。一般来说,TDA 方法非常适合分析结构、表面和几何形状,而且在计算复杂度和抗干扰能力方面都非常高效。本部分中确定的工作执行 TDA 的 "经典 "任务,这些任务在文献中很常见。不过,只有明确提到在生产过程中的产品层面应用 TDA 的作品才被包括在内。
TDA 在产品层面的一个自然应用是分析产品的拓扑差异。在这项工作中,作者描述了增材制造(AM)中拓扑差异的分类。产品以 R3 网格嵌入,主要使用纯同源性。表面纹理分析是另一种自然应用。在早期的作品中,PH 被用于区分。在早期的工作中没有提供具体的任务,但在后来的工作中却出现了这种情况。后者将表面纹理作为产品质量的一个重要因素进行了讨论。他们的方法应用于表面轮廓,然后又应用于更具体的微观图像任务。
对于形状分割,有人提出了使用 PH 和图卷积网络的新方法。他们基于 PH 的图卷积网络超越了在点云数据上进行细粒度三维形状分割方法的最先进水平。此外,还介绍了更多专用案例。他们的工作应用于晶圆生产的质量控制。任务是使用映射算法对缺陷模式进行聚类。输入特征是通过视觉转换器从晶片图图像中提取的。另一个案例是电机生产。在另一篇论文中,作者使用 PH 检测电动马达的偏心率。这里的数据是电机过程参数的时间序列。在他们的研究中,通过使用简单的回归模型,可以合理准确地预测故障水平,同时保持较低的计算复杂度。同样,他们还分析了机械部件制造过程中部件间制造差异的根本原因。他们将 ML 方法应用于从光学扫描数据中提取的点云数据,并使用 UMAP 对其进行了扩展。另一篇论文没有对单个产品异常进行分类。他们的用例要求是检测和剔除制造晶片图中的缺陷。在他们的深度学习管道子系统中,UMAP 被用于降维。最近的一项研究[27]也完成了同样的任务,即在生产过程中检测晶圆图中的缺陷模式。在这项工作中,作者提出在神经网络中使用 PH 生成特征。在神经网络的进一步处理中,生成的持久图被转换为持久图像;针对射频设备的增材制造任务,作者建议将 UMAP 和卷积神经网络用于显微镜图像。通过将几何变化映射到电磁性能指标来识别缺陷机制及其对性能的影响,有助于更快、更便宜地进行质量控制,因为不需要进行在线电磁模拟。
工艺层面的质量控制
在对有关质量控制的文献进行概述后,将讨论过程层面的结果。目标是通过观察过程变量而不是产品质量,使用过程数据来评估生产过程的质量(见图 7)。数据的例子包括机器状态、传感器数据或从生产过程中获得的其他数据。在本任务的审查过程中发现了七项研究。虽然这个数字表明应用范围很广,但实际上确定了两个主要应用。
图 7:过程级质量控制应用程序捕捉关键过程参数的时间序列数据,作为机器过程质量控制的基础。注塑机示意图中显示了工艺参数。如表 II 所示,该示意图的输入数据类型(时间序列)是完整的。 |
利用关键工艺参数观测数据进行研究的目的是预测制造工艺的生产率。据作者称,这些研究是首次将 TDA 方法用于制造应用。
还有人建议使用映射算法来识别基准加工数据集中的独特群组。利用映射算法的输出网络,选出影响最终产品质量的关键过程变量或特征。他们的研究表明,这种方法达到了与使用所有过程变量相同的预测准确度,而且更具成本效益。
工序级质量控制的第二个应用是颤振检测。最近几年,机械加工中的颤振检测受到了广泛关注,这一点可以从对其特定应用领域的研究中看出。颤振检测非常重要,因为它会对工件和机床造成损坏。特别是使用 TDA 方法检测颤振引起了一些关注,并影响了 Firas A. Khasawneh 在其研究中提供了五项工作。第一项工作是概念验证,表明作者可以使用 PH 检测颤振。在随后的作品[26]中,作者提出了一种基于 PH 和监督学习的聊天检测方法。作者指出,这种方法能高精度地检测出聊天者。在 [60] 中,作者提出了一种基于使用 PH 获取的拓扑特征向量的监督聊天检测方法。同样的工作在 [59] 中有更详细的描述。在随后的工作中,他们进一步提出了一种迁移学习方法 [58]。在这里,他们证明并评估了在使用不同数据集进行训练时,迁移学习可用于提高颤振性能。在这项工作中,动态时间扭曲也被用来对齐时间序列。自然,所有流程任务都依赖于时间上的连续步骤。因此,本组中的所有作品都自然而然地将其方法应用于时间序列数据。
制造工程
本节介绍 TDA(相位数据分析)在制造工程领域的应用。制造工程是指设计、分析和改进制造流程和系统的工程学科。该领域的任务并不侧重于产品本身,而是关注用于制造这些产品的流程和系统。制造工程的任务包括优化物料流、优化生产流程、优化生产系统、选择部件和设计生产线。制造商的一项常见任务是制定生产时间计划。产品需求会因季节、地区、天气以及促销和公共假期等事件而波动。无法满足需求会导致客户流失,而生产过剩则会因大量储存和处理产品而造成经济损失。罗德里戈-里维拉-卡斯特罗(Rodrigo Rivera-Castro)等人提出了不同的需求预测方法。要对新产品进行预测,需要选择一个预测模型。针对这一选择过程,提出了一种基于映射图的 k 近邻算法。通过利用历史时间序列数据的拓扑特性,作者声称预测模型的选择比其他方法更准确、更快速。最近的研究解决了依赖于机器操作员专业知识和经验的问题。机器更换需要重新参数化,但这些参数变化不是基于数字证据,而是基于机器操作员的手工操作和经验。这样做的缺点是,重新参数化只能在一定程度上复制,而且操作员需要经过长期培训才能获得使用特定机器类型的必要经验。 d. Mu ̃ noz 等人联合使用现有的 ML 工具,从现有的几何设计中提取还原流形。他们建议联合使用现有的 ML 工具,以便使用插值技术,利用聚类技术推断缺失信息,从而利用缩减流形生成新的几何设计。他们的工作在很大程度上依赖于 PH(持久同源性)和持久图像。物料流优化是对生产系统中物料的计划和流动进行优化的任务。这项任务包括将原材料从仓库运送到生产现场、在生产线之间运送半成品以及将成品从生产车间运送到仓库。鉴于生产系统的复杂性,优化物料流是一项极具挑战性的任务,因为所有相关部件都有不同的能力、交换时间和其他限制因素。考虑到这些制约因素,物料流优化需要从业务和技术两个角度来解决。物料流优化任务是一个多目标优化问题,旨在最大限度地降低物料流成本和时间。在这项基准任务中,建议将从仓库到生产线的物料流优化为多车辆路由问题,使用多维空间中的点云数据。评估是通过 PH.S.A. 方法进行的。
本节介绍在制造环境中优化独立移动物体(如机械手和机器人)的任务。这些物体需要受到保护,以免与其他物体、周围环境以及最重要的与人类操作员发生碰撞。保护工作可通过使用物理笼子来实现,但这些笼子构造复杂、灵活性差且价格昂贵。一个更具成本效益的解决方案是使用虚拟笼子,通过虚拟边界来限制物体。这项工作的任务是为给定对象合成一个具有最佳配置的平面能量限制笼。最佳配置是通过识别抓手和力方向配置并应用持久同源性(PH)来实现的。为此,物体和抓手被建模为点云。确保离开生产线的产品具有稳定的质量是制造工程中的一项重要任务。运送有缺陷的产品会导致声誉受损,最严重的情况下还会造成人员伤亡。每个产品都要进行系统级测试,以确保达到质量要求。为了生成缺陷产品的分类规则,Ho-Chieh Hsu 等人提出了一种使用 UMAP 的降维方法:OT 系统是典型的网络物理生产系统,其中的物理部件由计算机系统控制。由计算机系统控制。构建和扩展此类系统是一项艰巨的任务,因为这些系统往往非常复杂和异构。因此,为了在这些系统中找到重复模式,Markus Unterdechler 等人建议重复使用系统中已经建立的组件。这样可以提高可靠性,降低成本,减少维护工作量。在他们的方法中,UMAP 被用于降维。本文介绍了中草药制造业的一个案例研究。在这项研究中,作者试图分析蒸发过程中的降解问题。因为这是影响生产成本的一个主要因素。在分析中,使用了 UMAP 对时间序列数据进行降维处理。针对预防性维护任务,Xiaoyu Zhang 等人提出了一种分析机器维护数据的方法。这类数据集通常是异构的多维日志。需要对这些数据进行分析,以找到表明故障的模式。作者介绍了一种可视化分析方法,用于诊断此类异构和多维机器维护数据(文本日志数据),其中 UMAP 作为处理管道的一部分用于降维。还介绍了另一种分析机器维护数据的方法。在他们的研究中,通过使用声发射来观察机器磨损情况,从而缓解了精密冲裁行业的机器退化问题。这种方法基于 UMAP 和时间序列数据的分层聚类。作者认为,将数据可视化为两个维度,既能识别机器磨损,又能体现数据的时间依赖性。在工业 4.0 中,OT 系统的安全性是一个关键问题。这反映了安全领域所面临的挑战:在研究过程中只发现了一篇涉及 OT 安全主题的论文,即 Joaquı ́n Ordieres-Mer ́ e 等人的《钢铁生产流程中安全应用的下游任务》。建议在以下领域使用 UMAP,并将数据作为时间序列数据提供。
讨论和未来研究方向
近年来,人们对拓扑数据分析(TDA)在工业生产和制造过程中的应用兴趣与日俱增:自2016年首次应用以来,发表论文的数量稳步增长,并在2022年达到顶峰。未来,人们对拓扑数据分析在这一领域应用的兴趣有望持续。每个具体应用领域的出版物数量各不相同。从拓扑学的角度来看,这项调查中的一个热门应用非常自然:产品几何、表面和特征分析。当然,除了应用于生产和制造环境的作品外,还有许多出版物涉及类似主题。另一个热门应用是制造工程领域的过程数据分析。最常用的 TDA 方法是 PH,有 14 篇著作以某种方式使用了这种方法;有 9 篇著作使用了 UMAP;最流行的 TDA 方法是 PH,有 2 篇著作使用了这种方法。有几部作品强调了 UMAP 在拓扑保护方面的优势特性,但很少将其与其他降维方法进行讨论或实证比较。使用最少的方法是映射器算法,只有四部作品使用了这种算法。然而,在其他应用领域,如医学领域,这是一种非常成功的方法。因此,映射器算法在工业 4.0 中的潜力尚未得到充分挖掘。就数据类型而言,TDA 在这方面最常见的应用是时间序列数据。特别是,检测加工过程中的颤振是一项非常受欢迎的任务。在过去几年中,这一应用受到了广泛关注,使 TDA 应用成为众多方法中最具竞争力的方法之一。然而,令人有些意外的是,在这种情况下,点云等更经典的 TDA 数据并不像时间序列数据那样受欢迎。
在将拓扑数据分析(TDA)方法应用于数据类型时,所有观察到的方法都解决了时间序列数据的问题。标量字段也是如此,但只有一项研究使用了映射器算法,而其他方法的使用频率更高。一个有趣的现象是,使用映射算法的作品只应用于时间序列数据(三部)和晶片图(一部)。这有点出人意料,因为映射器算法的使用方式与映射器算法并不相同。这是因为映射器算法主要是一种应用于聚类问题的算法,而聚类对于点云来说是一项自然任务。在本研究中,我们没有发现任何一部作品将映射器算法用于点云。我们对分组(b)并不感到惊讶,因为该分组中的所有工作都只与时间序列数据有关。这是因为流程本质上是一系列动作,自然可以用时间序列事件来描述。不过,工业 4.0 的许多其他数据都是以点云为模型的,可以使用 Mapper 算法进行分析。因此,建议处理这类数据的从业人员考虑使用 Mapper 算法进行分析。希望 TDA 今后能更多地应用于工业生产。因为我们相信,这样做有很多好处。从这项工作的角度来看,出版物的数量仍然很少,但在不断增加。迄今为止的讨论已经显示了一些具有未来研究潜力的领域,以及一些未得到充分利用的输入类型和方法组合。不过,未来研究的其他潜在领域依然存在。首先,将 TDA 应用于行为数据的潜力巨大。机器运行时的测量数据具有巨大的分析潜力。它不仅可用于颤振检测,还可用于其他任务,如检测生产过程中的异常情况、预测性维护、检测安全事件等。设计入侵检测和防御系统是保护 OT 环境的众多措施之一。此类系统有不同的方法,其中之一是数据驱动的异常检测方法。这也可以重新表述为一项时间序列分类任务:将 TDA 方法应用于这项任务是自然而然的事情,但目前只发现了一项使用 TDA 的工作,该工作使用 UMAP 进行维度缩减。在这方面,我们可以期待更多,包括在未来将 PH 应用于异常检测。最后,我们希望在未来几年内能开展与这项工作相同主题的定期调查。这将有助于观察 TDA 在该领域的应用发展情况,并为该领域的发展提供洞察力。鉴于这项工作所使用方法的性质,它具有很强的可复制性,可供其他研究人员扩展这项工作。
结论
该研究综述了有关工业生产和制造过程中技术数据采集的现有文献,展示了技术数据采集方法与工业生产和制造过程领域之间的相互关系。该研究通过全面概述 TDA 在工业生产和制造过程中的应用现状,展示了 TDA 的应用领域和所用方法,并强调了未得到充分利用的 TDA 应用领域和方法组合,为当前文献做出了贡献。采用透明、严格的方法搜索和识别文献,确保了这项研究的可重复性。通过这种方法发现了 27 篇相关参考文献。对这些参考文献进行了人工分类,并将结果归入以下三个类别之一:产品级质量控制、过程级质量控制或生产工程。对于所有工作,都简要说明了所使用的数据格式以及在具体使用案例中采用的 TDA 方法。研究表明,TDA 是一种特别适用于分析工业生产和制造过程中来自传感器和其他设备的复杂数据集的方法。此外,研究还表明,TDA 在这一领域的应用仍处于早期阶段,未来的研究潜力巨大。
与本文相关的类别