赶上最新的AI论文

[交叉集合表征学习] 克服深度强化学习中的多样性挑战

[交叉集合表征学习] 克服深度强化学习中的多样性挑战

神经网络

三个要点
✔️ CERL提高了单个代理的性能,聚合策略
✔️ 通过集合成员之间的价值函数学习提高了学习效率

✔️ 对 Atari 游戏和 MuJoCo 任务的评估证实了该方法的有效性

The Curse of Diversity in Ensemble-Based Exploration
written by Zhixuan Lin, Pierluca D'Oro, Evgenii Nikishin, Aaron Courville
(Submitted on 7 May 2024)
Comments: Published as a conference paper at ICLR 2024

Subjects: Machine Learning (cs.LG)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

研究发现,搜索策略,尤其是使用多样化数据共享代理的搜索策略,理论上可以提高搜索效率,但实际上会降低单个代理的性能。这是由于集合成员依赖于较低比例的自生成数据进行学习,因此无法高效学习。我们将这一问题命名为 "多样性诅咒",并对其影响和对策进行了详细分析。

相关研究

论文的相关研究部分讨论了基于集合的搜索策略是如何在深度强化学习(Deep RL)领域发展起来的。论文特别引用了一些研究,这些研究提出了通过允许多个代理在学习不同策略时共享数据来提高搜索效率的方法。这些研究的目的是在训练过程中同时探索几种不同的策略,从而扩大单个代理探索的状态/行动空间,形成更稳健的集合策略。

不过,本文重点讨论这些搜索策略的潜在问题。由不同代理组成的集合所面临的一个关键挑战是,单个代理只有一小部分数据是自己生成的,这就降低了它们的学习效率。这是因为 "非政策学习 "的困难,即从其他代理生成的数据中学习。此外,他们还指出,以往的研究并没有充分评估这一现象,并提出了实验结果,以澄清集合成员的性能在多大程度上不如单个代理。

拟议方法 交叉集合表征学习(CERL)

所提出的跨集合表征学习(CERL)算法包括以下步骤。该算法旨在通过跨集合成员学习值函数这一辅助任务来克服多样性诅咒。下图概述了算法过程。


1. 初始化组合
每个代理都有单独的策略和价值函数。这些策略的初始化参数要么是独立的,要么是部分共享的。在概览图中,这些独立的策略被描绘成每个代理的独特网络结构。


2. 数据收集
每个代理都从环境中独立收集数据。这些数据存储在中央重放缓冲区,所有代理都可以访问。下图显示了每个代理如何收集一组不同的数据并将其发送到共享重放缓冲区。


3. 设置辅助任务
除了根据自身策略学习主要任务外,每个代理还执行辅助任务,预测其他代理的价值函数。这样就可以通过了解其他代理的行为模式和价值判断来进行更广泛的表征学习。下图描述了主要任务 Qi(s,a) 和辅助任务 Qji(s,a) 如何在代理之间协同工作。


4. 学习过程
通过批量学习,每个代理同时优化主要任务和辅助任务。辅助任务影响损失函数,目的是准确预测其他代理的价值函数。该图直观地显示了这些学习过程是如何整合和相互作用的。


5. 政策更新和评估
在环境中定期对学习到的政策进行评估,并跟踪其性能。这样就能清楚地了解算法的进展和每个代理的学习效果。概览图描述了如何衡量每个代理在评估阶段的不同表现。

试验

本文在 55 个 Atari 游戏和 4 个 MuJoCo 任务中对交叉集合表征学习(CERL)进行了实验评估。CERL 的性能与传统的 Bootstrapped DQN、Ensemble SAC 进行了比较,并与单代理双 DQN 和 SAC 进行了比较。实验还将 CERL 与网络共享的 Bootstrapped DQN 进行了比较。实验结果如图 7 所示。

Atari 游戏(图 7 顶部):在 55 个 Atari 游戏中,CERL 将 Bootstrapped DQN 和 Ensemble SAC 与参考进行了比较。性能。

MuJoCo 任务(图 7 下半部分):我们还考察了不同重放缓冲区大小的影响,与使用 0.2M 大小重放缓冲区的 SAC 相比,CERL 将性能差距从 2500 左右缩小到 500 左右。

这些实验表明,CERL 可减轻多样性诅咒,提高单个代理和聚合策略的性能。图 7 中的误差条表示 95% 的引导置信区间,增加了结果的可信度。

结论

这项研究表明,交叉集合表征学习(CERL)是一种有效的方法,可以减轻深度强化学习中的 "多样性诅咒":通过集合成员之间的表征学习,CERL 不仅可以提高单个代理的性能,还可以提高集合策略的性能。还能提高聚合策略的性能。未来,该方法有望应用于更多强化学习任务,促进更高效算法的开发。此外,还将探索通过应用于复杂的现实世界环境以及与其他学习策略相结合来提高性能的可能性。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们