
情報エントロピーを活用した活性化関数の最適化手法とCRReLUの提案
3つの要点
✔️ 情報エントロピーに基づく理論的枠組みにより、最悪の活性化関数(WAFBC)の存在を証明。
✔️ EAFO(Entropy-based Activation Function Optimization)を提案し、動的かつ静的な活性化関数の設計を実現。
✔️ 新しい活性化関数CRReLUを導出し、画像分類および言語モデルタスクで従来の関数を上回る性能を実証。
A Method on Searching Better Activation Functions
written by Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang
(Submitted on 19 May 2024)
Comments: 16 pages,3 figures
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:![]()
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
近年、深層学習の発展により、ニューラルネットワーク(ANNs: Artificial Neural Networks) の性能向上が著しく進んでいます。その中で、活性化関数(Activation Function) は、ネットワークの非線形性を確保し、複雑なパターンの学習を可能にする重要な要素の一つです。しかし、従来の活性化関数の選定は主に経験則に基づいて 行われてきたため、理論的な指針が不足していました。その結果、より優れた活性化関数の探索が難しくなり、モデルの最適化が十分に進んでいないという課題がありました。
本論文では、この課題に対応するために、情報エントロピー(Information Entropy) の観点から活性化関数を最適化する方法を提案し、新たな活性化関数「Correction Regularized ReLU(CRReLU)」を導出しました。CRReLUは、代表的な活性化関数であるReLU(Rectified Linear Unit) をベースにしつつ、情報エントロピーに基づいた最適化手法「Entropy-based Activation Function Optimization(EAFO)」を用いることで、より優れた性能を実現しています。
関連研究
活性化関数の重要性と既存の手法
活性化関数は、ニューラルネットワークの性能を左右する重要な要素の一つであり、その選択によって学習の安定性やモデルの精度が大きく変わります。従来の研究では、以下のような活性化関数が開発され、広く使用されてきました。
- Sigmoid および Tanh:
- 初期のニューラルネットワークでよく用いられたが、勾配消失(Vanishing Gradient)問題が発生しやすい。
- ReLU(Rectified Linear Unit):
- 計算が容易であり、勾配消失を防ぐ特性を持つが、「Neuron Death(ニューロンの死滅)」 や**「バイアスの偏り」** という課題がある。
- Leaky ReLU / Parametric ReLU(PReLU):
- ReLUの問題を改善するために、負の入力にも小さな値を出力するように改良。
- GELU(Gaussian Error Linear Unit):
- BERTやGPT-4などの大規模言語モデル(LLM) において高い性能を発揮するが、その数理的特性は十分に解明されていない。
これらの活性化関数は、経験的な評価によって選ばれており、体系的な最適化が行われていないという課題がありました。本論文では、この課題に対処するために、情報エントロピーに基づいた理論的アプローチを導入し、最適な活性化関数を探索する手法を提案しました。
提案手法
情報エントロピーと活性化関数の関係
本研究では、情報エントロピーと活性化関数の関係 に着目しました。情報エントロピーとは、データの不確実性を表す指標であり、ニューラルネットワークの学習において重要な役割を果たします。具体的には、次のような関係が導かれました。
- 活性化関数の情報エントロピーが高いと、学習の不確実性が増大し、分類性能が低下する。
- 情報エントロピーを最小化することで、より効果的な活性化関数を設計できる。
- 最悪の活性化関数(WAFBC)の存在を証明し、それに基づいてより良い活性化関数を設計することが可能である。
Entropy-based Activation Function Optimization(EAFO)
本研究では、新たな活性化関数の最適化手法としてEAFO(Entropy-based Activation Function Optimization) を提案しました。この手法は、次の3つのステップで構成されます。
- 既存の活性化関数の情報エントロピーを計算し、最悪の活性化関数(WAFBC)を理論的に導出する。
- WAFBCを基準に、情報エントロピーが低減するように活性化関数を最適化する。
- 最適化された活性化関数をニューラルネットワークに適用し、その性能を評価する。
Correction Regularized ReLU(CRReLU)の導出
EAFOを活用することで、新しい活性化関数Correction Regularized ReLU(CRReLU) が導出されました。CRReLUは、以下の特性を持つReLUの改良版です。
- ReLUの「ニューロンの死滅(Dying ReLU)」問題を解消
- 負の入力値にも情報を流し、ネットワークの表現力を向上
- 学習の安定性を高め、より高速な収束を実現
CRReLUの数式表現は以下の通りです。
ここで、ε は学習可能なパラメータであり、最適化に応じて調整されます。
実験
画像分類
CIFAR-10、CIFAR-100、ImageNet-1Kのデータセットを用いて、Vision Transformer(ViT)やData-Efficient Image Transformer(DeiT)などで性能を評価しました。その結果、CRReLUは他の活性化関数(GELU, ELU, PReLUなど)よりも一貫して高い精度を達成しました。
例えば、表1と表2を見ると、CIFAR-10およびCIFAR-100でCRReLUが最も高いトップ1精度を示しています。特にCIFAR-100では、ReLUの改良版であるPReLUやMishなどを大幅に上回る性能を発揮しています。
大規模言語モデル(LLM)
さらに、GPT-2を用いて大規模言語モデルの微調整を行いました。このタスクでは、Stanford Human Preferences(SHP)とAnthropic HHというデータセットを使用し、CRReLUとGELUの性能を比較しました。
結果は表4(p.8)に記載されていますが、CRReLUがGELUを全般的に上回る評価指標を達成しました。
結論
この論文は、理論的な枠組みを導入することで、これまで経験的だった活性化関数の設計に新しいアプローチを提供しました。EAFOを使えば、既存の関数を基にした効率的な改良が可能となり、CRReLUのような新しい関数を生み出すことができます。
ただし、EAFOのさらなる応用や、計算効率を向上させる方法については今後の課題として残されています。特に、画像分類や言語タスク以外の分野での適用可能性を探ることで、さらなる発展が期待されます。
この記事に関するカテゴリー