赶上最新的AI论文

AWORLD:通过分布式框架实现代理人工智能的高效学习平台

AWORLD:通过分布式框架实现代理人工智能的高效学习平台

三个要点
✔️ AWORLD将分布式环境下的经验生成速度提高了14.6倍,并显著提高了学习效率
✔️ 基于Qwen3-32B应用强化学习,在GAIA基准测试中实现了超过GPT-4o的精度
✔️ 作为一个开源平台,它提供了从代理构建到训练的 "从实践中学习"。支持从代理构建到训练的 "从实践中学习 "的人工智能开发

AWorld: Orchestrating the Training Recipe for Agentic AI
written bChengyue YuSiyuan LuChenyi ZhuangDong WangQintong WuZongyue LiRunsheng GanChunfeng WangSiqi HouGaochi HuangWenlong YanLifeng HongAohui XueYanfeng WangJinjie GuDavid TsaiTao Lin
(Submitted on 28 Aug 2025 (v1), last revised 1 Sep 2025 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本研究的重点是 "从实践中学习 "的学习范式,它被认为是开发代理人工智能(Agentic AI)的关键。

虽然传统的 LLM 在许多领域都表现出了很高的性能,但将其应用于复杂、多步骤的现实世界任务仍面临着巨大的挑战。
特别是对于 GAIA 基准等高级任务,模型与环境之间的交互效率低下,经验数据的生成也是一个瓶颈。

因此,作者提出了一个名为 AWORLD 的开源框架。
AWORLD 通过利用分布式环境大规模、高效地执行代理与环境的交互,与传统方法相比,经验生成速度加快了 14.6 倍。
这种机制使得利用强化学习进行大规模训练成为可行,基于 Qwen3-32B 的代理在 GAIA 中的表现优于 GPT-4o。

这项研究通过高效的经验生成和优化的训练配方,为实用的、可自我改进的代理人工智能奠定了基础。

建议的方法

提议的 AWORLD 框架是代理人工智能 "从实践中学习 "过程的全面基础。
该设计由四个主要元素组成。

首先,代理构建可实现及时设计、工具选择和代理协作。
其次,作为一种通信协议,它确保了用户与代理、代理与工具,甚至代理与代理之间的统一信息传递,从而实现稳健的分布式执行。
第三,运行时状态管理使用 Kubernetes 确保高度并行的执行和状态一致性维护,从而以稳定的方式处理大型长期任务。
最后,培训协调与 RL 框架(如 SWIFT 和 OpenRLHF)集成,以高效地收集和连接推广数据与培训。

该系统的一大特点是显著提高了探索阶段的效率,使以前难以实现的大规模强化学习变得切实可行。

实验

作者在 GAIA 基准上测试了所提方法的有效性。

首先,他们证实了滚动次数的增加会直接导致性能的提高。
例如,在 Claude-3.7-Sonnet 和 GPT-4o 上,试验次数的增加使成功率提高了一倍,这表明了经验生成的数量和质量的重要性。

接下来,AWORLD 的分布式环境与传统的单节点执行进行了比较,结果显示,推出时间从 7695 秒减少到 525 秒,速度提高了 14.6 倍。
此外,在基于 Qwen3-32B 的 AWORLD 上训练的代理性能优于 GAIAテストセットでpass@1精度32.23%を記録し 和 GPT-4o(27.91%),与 DeepSeek-V3 不相上下。

这些结果超过了现有的商业模型,尤其是在一组困难问题上,这表明 AWORLD 是提高代理人工智能在复杂推理任务中的能力的有效基础。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们