ADAMG，深度学习优化的一场革命：无参数优化的新时代

大型语言模型 22/10/2024

三个要点
✔️ 在自适应梯度训练方法中，学习率的选择非常重要，如果能自动完成，效率就会提高。
✔️ 提出了一种新算法 ADAMG，它是 AdaGrad-Norm 的衍生算法，利用黄金步长。
✔️ ADAMG 在多个基准测试中表现出色，比现有的无参数方法更稳定。

Towards Stability of Parameter-free Optimization
written by Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou
(Submitted on 7 May 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

一项名为 ADAMG（黄金步长的亚当）的新技术已经推出，它将彻底改变人工智能行业。这种革命性的无参数优化算法可以自动调整最佳学习率，大大简化了训练过程；ADAMG 基于 AdaGrad-Norm 并使用特定的 "黄金步长 "来即时适应不同的优化问题。ADAMG 的稳定性和性能均优于传统方法，是塑造人工智能未来的重要一步。它将开发人员从繁琐的学习率调整中解放出来，使他们能够专注于更具创新性的研究。

拟议方法（ADAMG）

ADAMG 是一种新的优化算法，源自 AdaGrad-Norm，是一种无参数方法，在自适应梯度训练中无需手动调整学习率。该算法的核心在于 "黄金步长"，它能自动为各种优化问题提供最佳步长。

黄金分割步长的定义

黄金步长的引入是为了在保持 AdaGrad-Norm 收敛性能的同时，接近预期的最佳步长。这种步长与具体问题的特征无关，有望在各种训练条件下促进一致有效的收敛（见图 1）。

算法

1. 初始化：将参数设置为初始值，并以黄金步长启动第一个步长。

2. 梯度计算：每一步都计算目标函数的梯度，并利用这一信息更新参数。

3. 步长更新：使用 AdaGrad-Norm 技术在每次迭代后动态调整步长。

4. 收敛决定：重复梯度计算和参数更新，直到满足收敛条件。

在计算资源有限的环境下，特别是在大型数据集和复杂模型结构上，所提出的方法有望取得良好的效果。此外，由于无需手动调整，研究人员和工程师有望将精力集中在更具战略性的问题解决上。

试验

为评估 ADAMG 的性能，我们在各种数据集和网络架构上进行了实验。这详细验证了 ADAMG 在不同条件下的表现。实验的目的是确定 ADAMG 提供的无参数优化与现有方法（尤其是使用手动调整学习率的 Adam）相比有多大的竞争力。

实验装置

- 数据集：使用了多个公共数据集，包括 CIFAR-10、CIFAR-100 和 Tiny-ImageNet。这些数据集广泛用于图像识别任务，适合测试算法对不同类型图像数据的适应性。

- 模型：使用不同结构的网络进行测试，如 DenseNet、ResNet、VGG 和基于变压器的模型。这样就可以评估 ADAMG 对不同架构的适用性。

- 评价标准：收敛速度、稳定性和最终解决方案的质量是实验中采用的主要评价标准。其中包括测试精度和减少损失。

实验结果

实验结果表明，在许多情况下，ADAMG 的性能优于其他无参数优化方法和标准亚当优化器（见图 2）。特别是，在某些任务中，观察到的高稳定性和有效收敛模式优于使用手动调整学习率的传统方法。这表明，ADAMG 可广泛应用于现实世界的各种问题。

审议

ADAMG 的成功在很大程度上依赖于黄金步长能够有效估计各种训练环境下的最佳学习率。这些结果为深度学习中的优化方法开辟了新的可能性，并提供了有效的解决方案，尤其是在计算资源有限的情况下，以及在难以进行人工调整的大规模问题中。这些结果也为未来研究的进一步改进和创新提供了一个起点。

结论

ADAMG 是一种基于 AdaGrad-Norm 的无参数优化算法，它使用黄金步长为各种优化任务自动提供最佳学习率。实验结果表明，与传统优化方法相比，ADAMG 具有更高的稳定性和效率。特别是在计算资源有限或处理大型数据集的情况下，该算法可以有效地保持高性能，同时减少人工调整的工作量。预计未来的工作将探索 ADAMG 在更多模型和情况下的应用及其局限性。