赶上最新的AI论文

分析SGD的泛化性能:高效配置批次大小和学习率

机器学习

三个要点

✔️推导SGD中预测模型的参数搜索的泛化性能

✔️证明当批次大小与学习率的比值较小时,泛化性能会提高

✔️这些特性是在总共1,600个预测模型的实验中测试出来的。

 

Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence
written by 
Fengxiang HeTongliang LiuDacheng Tao
Comments: Published by NeurIPS 2019.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML))

背景

深度学习模型由于其较高的表示力而被应用于各个领域,随机梯度下降(SGD)是训练这些模型的一种非常流行的参数搜索算法。虽然关于SGD在在线学习中的研究已经进行了很长时间,但对小批量法的适应性分析还不多。这里提出的研究是基于理论分析,重点分析SGD超参数与泛化性能之间的关系。综上所述,理论和实验结果均表明,批次规模与学习率之比与预测误差上界正相关。虽然我们在分析中做了各种假设,但我们相信,当工程师在SGD上实际运行培训时,这可以成为一个有用的参考。

理论分析

思维方式

首先,我们介绍一下SGD这种概率优化算法中的一些参数思路。他们假设一个预测模型的参数$\theta$是在训练预测模型的过程中根据某个概率分布$Q$产生的(是的,是贝叶斯观点);由于小批量是在SGD中随机给定的,在此基础上计算的参数$\theta$将随机波动,并且可以看到假设在训练中,参数的分布从$Q_0,Q_1,Q_2,和\cdots$随着时代的变化而变化,在训练中通过$t=1,2,和\cdots$旋转($Q_0$代表初始分布)。在本文中,我们将收敛的概率分布(例如,通过转动约500个纪元)表示为$Q$。下面提供一个直观的示意图。

此外,在本研究中,我们将假设学习率\codeta$在所有的纪元$t=1,2,和\codots$中都是恒定的(学习率变化的情况分析是未来研究的重要课题)。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们