赶上最新的AI论文

从制造业机器人操作演示中学习的路线图

从制造业机器人操作演示中学习的路线图

机器人

三个要点
✔️ 描述了在制造业中从演示中学习(LfD)的实际实施方法
✔️ 详细比较了全任务、子任务、运动和接触式演示方法
✔️ 在制造业中有效实施 LfD 学习和改进流程的具体指南

A Practical Roadmap to Learning from Demonstration for Robotic Manipulators in Manufacturing
written by Alireza BarekatainHamed HabibiHolger Voos
[Submitted on 11 Jun 2024]
Comments: 26 pages, 6 figures
Subjects: 
Robotics (cs.RO)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本文提供了一个实用的结构化路线图,用于在制造操作中整合机器人机械手的 "从演示中学习"(LfD)。随着从大规模生产到大规模定制的模式转变,有必要为无需专业知识的从业人员提供一个路线图,以便将现有的机器人流程转换为基于 LfD 的定制解决方案。

本文为回答 "展示什么"、"如何展示"、"如何学习 "和 "如何改进 "等关键问题提供了全面指导。它针对制造环境提出了提高准确性的标准,有助于研究人员和行业专业人员有效部署基于 LfD 的解决方案。

介绍

从演示中学习"(LfD)是指机器人通过模仿人类行为来学习新技能的一种方法。具体来说,其目的是让机器人能够通过观察人类行为来执行任务,而无需专门编程。

这种方法使机器人能够磨练现有技能并快速学习新技能。与传统的人工编程相比,LfD 具有灵活性,易于根据环境和任务要求进行调整,因此也越来越多地应用于工业领域。

传统的机器人编程需要高级机器人编程知识和技能,因为它需要编写代码和脚本来明确定义机器人的行为。此外,还需要根据环境和任务的变化重新编程,既费时又费钱。

与此相反,LfD 允许非专业人员教授机器人,便于修改任务和增加新任务,并被证明有助于提高制造业的效率和灵活性。 本文回顾了之前关于 LfD 的研究,并对其实施进行了实用而系统的描述,尤其侧重于工业机械手。

现有的研究主要集中在 LfD 的理论方面,而本文旨在弥合研究与实践之间的差距。在制造业中,生产方式正在从传统的大规模生产向大规模定制转变,这就要求机器人具有灵活性和快速适应性,以应对这种转变。

为了满足这一需求,作者旨在为将 LfD 集成到现有机器人任务中提供指导,并提高 LfD 在制造业中的实用性。

图 1:实施土地退化问题路线图概览

演示内容

本节重点讨论开发 LfD 解决方案的第一步:如何设定演示范围。这一步考虑的是人类教师如何以特定的机器人任务为输入,确定要向机器人传授的知识和技能。

明确界定演示范围对于为整个 LfD 流程奠定基础非常重要。范围定义得当,可确保所提供的演示全面、准确地捕捉到机器人的预期行为。反之,范围不明确可能导致演示不完整或不准确,从而限制 LfD 解决方案的有效性。

要确定 "展示什么",需要考虑以下三个方面

演示全部任务和子任务

考虑是将整个机器人任务作为一个大过程来演示,还是将其分解为几个较小的步骤(子任务)。在完整任务演示中,LfD 算法会自动分割整个任务,并分别学习每个子任务。

这种方法尤其适用于按顺序执行动作的简单任务。例如,在 "抓取"、"移动 "和 "放置 "一个物体的 "拾放 "任务中,LfD 算法很容易学会,因为明确定义的动作都是按线性顺序执行的。

然而,对于更复杂的任务,例如需要较小公差的插入任务,完整任务演示可能会出现困难。在这种情况下,由于存在有条件的任务层次,例如插入不成功时的恢复行为,对完整任务的自动分割可能会不准确。

这里建议采用子任务演示法。在这种方法中,教师手动分解整个任务,并分别教授每个子任务。这种方法在任务复杂或存在条件逻辑的情况下尤为有效,通过清晰地演示每个步骤,可以提高机器人的学习准确性。

图 2 直观地说明了完整任务和子任务演示之间的区别。左侧显示的是整个任务的一系列步骤,而右侧则将任务分为几个子任务,并对每个步骤进行单独教学。

图 2:显示子任务和任务层次如何构成完整任务的示意图

基于动作和接触的演示

机器人任务示教主要有两种类型:基于动作的示教和基于接触的示教。

基于运动的演示侧重于机器人的运动和运动模式,主要关注机器人的运动轨迹和运动学。在这类任务中,与环境的接触是有限的,机器人必须遵循精确的运动轨迹。拾放任务就是一个典型的例子,在这种任务中,机器人要精确地完成抓取物体、移动物体并将其放置到位的动作。

另一方面,基于接触的演示涉及学习机器人如何与物体互动。在这里,机器人不仅要复制动作,还要施加适当的力,并遵守严格的公差要求。在插入和装配任务中,力的应用和顺应性对于机器人理解其与物体的接触以及执行需要精确度的任务非常重要。

图 3 比较了以运动为基础的任务和以接触为基础的任务。左侧显示的是与环境进行的结构化和可预测的互动,而右侧显示的是与环境接触起重要作用的任务,如插入任务。

图 4 还说明了机器人的顺应性(适应性)和与环境接触时的反应之间的差异。图中显示了适应性(蓝线)和非适应性(红线)行为与环境表面的不同。

图 3:基于动作和基于接触的任务比较。左侧的拾放任务涉及与环境进行结构化和可预测的交互,而右侧的插入任务则要求用户处理因公差过大而产生的接触,以便成功完成任务。

图 4:对环境的合规和不合规行为示意图。黑线代表环境表面,红色路径代表不服从行为,蓝色路径代表相对于环境表面的服从行为。在阻抗控制中,末端执行器被模拟为弹簧阻尼系统。

展示语境依赖性

此外,还考虑了影响任务执行的具体环境。这些因素包括

合作任务:交互界面(如物理界面和通信协议)对于涉及与人类和其他机器人合作的任务非常重要。这可以确保合作任务顺利、安全地进行。图 5 显示了合作任务的一个例子,其中涉及共同运输物体。

双手任务:在机器人的两只手臂都用来操纵物体的任务中,两只手臂的同步和协调非常重要。例如,当需要组装或精确操纵复杂物体时,就需要适当协调双臂的动作。

临界点:在执行特定任务时,设置沿途要经过的临界点是非常有效的。这不仅能确保机器人正确执行行动,还能使其更容易适应沿途的变化。

任务参数:为了适应特定的条件和要求,应向机器人明确传授一些任务参数。这包括使其操作适应环境变化和物体特征的能力。

如上所述,本节详细分析了通过低频发展向机器人传授知识的内容和范围,并提出了根据具体情况调整演示的方法。

演示方法

演示方法 "部分介绍了如何根据确定的演示范围进行演示。选择演示方法时要考虑任务的特点和机器人在学习中的要求。

这里主要讨论三种演示方法。

1. 动觉教学

动觉教学法是一种由人类实际指导机器人动作,机器人从这些动作中学习的方法。人类教师直接操纵机器人完成所需的动作,机器人则记录这一过程。

这种方法适用于准确教授复杂的行为,因为机器人易于设置,并为教师提供了直观的界面。不过,对于较大或较重的机器人,这种方法对教师的体力要求较高,可能会产生安全问题。

由于运动过程中获取的数据存在噪声,因此可能需要进行额外的处理。图 5a 展示了一个动觉教学的真实示例,在这个示例中,人类用身体引导机器人并教它移动。

2. 远程操作

远程操作是一种由人类远程控制机器人并让机器人学习其行为的方法。教师使用操纵杆或触觉界面等设备控制机器人,让它做出相应的动作。

这种方法适用于在危险环境或伸手不见五指的地方进行操作,而且由于与机器人没有身体接触,因此提高了安全性。不过,远程操作需要复杂的设置,而且可能需要熟练的操作技能。

图 5b 是远程操作的一个示例,描绘了人类通过遥控器控制机器人的情景。

3. 被动观察

被动观察法是一种无需直接操作或明确指导,机器人只需观察人类行为即可学习的方法。机器人通过摄像头和动作捕捉系统等传感器观察环境和人类行为,并从获得的数据中学习。

这种方法适用于收集大量的演示数据,并可灵活地用于各种任务。但是,很难从观察到的数据中提取重要特征,而且对于复杂任务的学习效果可能较差。

图 5c 是一个被动观察的例子,描述了一个机器人通过观察人类行为进行学习的过程。

图 5:主要示范方法实例
表 1:示范机制比较摘要。

学习机制

本节将讨论在开发 LfD 算法时 "如何学习 "的问题。目的是为机器人设计和开发一种学习机制,以完成特定任务。

首先介绍学习空间,然后讨论常见的学习方法。

学习空间

学习空间是表示演示数据的地方,指的是 LfD 算法学习和概括所学行为的环境。本节将介绍机器人机械手常用的两种学习空间。

关节空间:该空间表示机器人每个关节的排列。该空间与机器人的控制层直接对应,能够准确学习机器人的行为。不过,在关节空间中学习可能会出现过度拟合和缺乏通用性的问题,这可能会导致难以将技能转移到不同的机器人上。

笛卡尔空间:代表机器人末端执行器位置和方向的三维空间。它适用于需要执行任务和精确控制末端执行器的应用,其优点是可以有效地将学习结果推广到不同的机器人和任务中。不过,由于需要在关节空间之间进行转换,因此计算起来可能比较复杂。

图 6:关节空间和笛卡尔空间的对比示意图。

学习方法

以下是 LfD 中常用的一些学习方法,并对其特点、优缺点进行了比较。

运动原型(MP):一种定义和优化低级机器人行为的方法,将预先定义的行为组合起来形成任务。它展示了子任务的层次结构,并学习高效和可预测的行为,但缺乏学习新行为的灵活性。

动态运动原型(DMP):将基于弹簧-阻尼系统的动态系统与非线性功能相结合,以实现所需的行为。它有能力学习和概括所展示的行为,并能针对特定任务高精度地再现行为。

强化学习(RL):机器人与环境互动,通过奖惩学习最佳行为以完成任务的一种方法。但学习需要大量数据和时间。

高斯过程(GP):机器学习中的一种概率建模方法,可捕捉函数中的复杂模式和关系。它的特点是即使只有少量演示数据也能学习,并能量化预测的不确定性。

高斯混合模型(GMM):一种使用多个高斯分布来模拟数据基本结构的方法,可有效捕捉人类演示的多样性。不过,这需要多次演示。

概率运动原始模型(ProMP):一种使用高斯基函数对表现出的行为进行建模的方法。但需要更大的数据集。

重要的是,学习方法的选择要与任务和环境相适应。

表 2:制造业学习方法的比较。

如何改进

在此,在完成 LfD 流程后,将对其性能进行分析,并探讨 "如何改进 "的策略。

本节介绍了提高土地退化评估性能的主要趋势和研究方向。这将促进整个枸杞多糖过程的改进周期,并推动进一步的改进。

学习和概括能力

目前的 LfD 方法可以从人类演示中学习,并将其推广到新的情境中,但仍远远落后于人类的学习能力。因此,提高学习和概括能力非常重要。提高学习性能的技术包括

渐进式学习:这是一种学习方法,可使机器人随着时间的推移不断获取并改进其知识和技能。例如,GP 可以从最初的演示中学习,并通过随后的操作进一步提高。

交互式学习:机器人与人类教师进行动态交互以获取知识和技能的一种学习模式。教师实时纠正机器人的行为,使其能够更准确地完成任务。

主动查询:学习者动态选择最有用的数据点或演示,并向教师请求这些信息的技术。这样可以有效地检索到最相关的信息,提高学习成绩。

精确度

除了提高训练效果,提高 LfD 输出结果的执行精度也很重要。可以考虑以下方法。

改进教学和演示:改进演示方法,以便人类教师更准确地教授机器人。例如,可以通过分别演示轨迹的形状和时间来提高轨迹的准确性。

优化执行策略:这是改进机器人实际执行 LfD 输出结果的策略并提高成功率的一种方法。例如,阻抗控制可用于补偿任务执行过程中的微小偏差。

稳健性和安全性

在整个生命周期内,确保生命数据采集过程的安全性和稳健性以应对突发情况也至关重要。特别是在需要与人类协同工作的环境中,必须建立安全可靠的 LfD 系统。

增强人机交互(HRI):这种方法侧重于人机交互,以提高鲁棒性和安全性。例如,可以建立一个系统,在机器人检测到异常情况时自动接收来自人类的反馈,并学习恢复动作。

提高对故障和错误的稳健性:在整个 LfD 周期中,努力提高对故障和错误的稳健性。例如,通过自主处理任务执行过程中发现的异常情况,可以提高任务的成功率。

结论

本文提供了一个实用的结构化路线图,用于在制造操作中整合机器人机械手的 "从演示中学习"(LfD)功能。与以往的综述不同,本文以综合指南的形式提供了实施基于 LfD 的机器人操作的明确步骤。具体来说,它针对四个关键问题提供了指导

展示什么:.

会上介绍了确定任务范围以及确定机器人需要学习的技能和知识的过程。

如何演示:.

会上介绍了根据任务特点选择有效演示方法并在此基础上向机器人传授技能的程序。

如何学习:.

开发了 LfD 算法,并解释了从演示中高效学习任务的学习机制。

如何改进:.

概述了在制造环境中进一步提高 LfD 性能的策略和挑战,并提供了研究方向。

这为研究人员和工业专家有效实施 LfD 和实现制造操作自动化提供了一系列步骤。特别是,机器人系统的设计要足够灵活,以适应制造业大规模定制的需求。

本文的方法侧重于制造环境中的实用性,可作为基于 LfD 的机器人操作成功解决方案的实用指南。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们