SGDの汎化性能の解析: バッチサイズと学習率の効率的な設定

機械学習 2020年07月14日

3つの要点

✔️ SGDで予測モデルのパラメータ探索を行なった際の汎化性能を導出
✔️ バッチサイズと学習率の比率が小さければ汎化性能が向上することを証明
✔️ このような性質を計1,600個の予測モデルによる実験で検証

Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence
written by Fengxiang He, Tongliang Liu, Dacheng Tao
Comments: Published by NeurIPS 2019.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML))

背景

深層学習モデルはその表現力の高さから様々な分野で応用されており、これらのモデルを訓練するためのパラメータ探索アルゴリズムとしてSGD（確率的勾配降下法）が非常に有名です。オンライン学習におけるSGDに関する研究は古くから行われてきたのですが、ミニバッチ法を適応した場合における解析は実は多くはなされていません。今回ご紹介する研究は、SGDのハイパーパラメータと汎化性能の関係に着目した上で理論解析を行っています。結論から言うと、バッチサイズと学習率の比率が予測エラーの上限に対して正の相関にあることが理論および実験の両方で示されました。解析において様々な仮定をおいているものの、実際にエンジニアがSGDで学習を回す際に一つの参考になるのではないかと思います。

理論解析

考え方

手始めに、SGDのような確率的な最適化アルゴリズムにおけるパラメータに関する考え方を紹介します。予測モデルのパラメータ$\theta$は、予測モデルの学習の過程において、ある確率分布$Q$に従って生成されると考えます（ベイズ理論的な考え方ですね）。SGDではミニバッチが確率的に与えられるため、それを元に計算したパラメータ$\theta$は確率的に揺らぎます。学習においてエポックを$t=1, 2, \cdots$と回していくにつれ、パラメータの分布が$Q_0, Q_1, Q_2, \cdots$と変化していくと考えます（$Q_0$は初期の分布を表しています）。本論文において、（例えばエポックを500くらい回して）収束した確率分布を$Q$と表記します。以下に直観的な図を掲載します。