情報エントロピーを活用した活性化関数の最適化手法とCRReLUの提案

Loss Function 2025年02月25日

3つの要点
✔️ 情報エントロピーに基づく理論的枠組みにより、最悪の活性化関数（WAFBC）の存在を証明。
✔️ EAFO（Entropy-based Activation Function Optimization）を提案し、動的かつ静的な活性化関数の設計を実現。
✔️ 新しい活性化関数CRReLUを導出し、画像分類および言語モデルタスクで従来の関数を上回る性能を実証。

A Method on Searching Better Activation Functions
written by Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang
(Submitted on 19 May 2024)
Comments: 16 pages,3 figures
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、深層学習の発展により、ニューラルネットワーク（ANNs: Artificial Neural Networks） の性能向上が著しく進んでいます。その中で、活性化関数（Activation Function） は、ネットワークの非線形性を確保し、複雑なパターンの学習を可能にする重要な要素の一つです。しかし、従来の活性化関数の選定は主に経験則に基づいて 行われてきたため、理論的な指針が不足していました。その結果、より優れた活性化関数の探索が難しくなり、モデルの最適化が十分に進んでいないという課題がありました。

本論文では、この課題に対応するために、情報エントロピー（Information Entropy） の観点から活性化関数を最適化する方法を提案し、新たな活性化関数「Correction Regularized ReLU（CRReLU）」を導出しました。CRReLUは、代表的な活性化関数であるReLU（Rectified Linear Unit） をベースにしつつ、情報エントロピーに基づいた最適化手法「Entropy-based Activation Function Optimization（EAFO）」を用いることで、より優れた性能を実現しています。

提案手法

情報エントロピーと活性化関数の関係

本研究では、情報エントロピーと活性化関数の関係 に着目しました。情報エントロピーとは、データの不確実性を表す指標であり、ニューラルネットワークの学習において重要な役割を果たします。具体的には、次のような関係が導かれました。

活性化関数の情報エントロピーが高いと、学習の不確実性が増大し、分類性能が低下する。
情報エントロピーを最小化することで、より効果的な活性化関数を設計できる。
最悪の活性化関数（WAFBC）の存在を証明し、それに基づいてより良い活性化関数を設計することが可能である。

Entropy-based Activation Function Optimization（EAFO）

本研究では、新たな活性化関数の最適化手法としてEAFO（Entropy-based Activation Function Optimization） を提案しました。この手法は、次の3つのステップで構成されます。

既存の活性化関数の情報エントロピーを計算し、最悪の活性化関数（WAFBC）を理論的に導出する。
WAFBCを基準に、情報エントロピーが低減するように活性化関数を最適化する。
最適化された活性化関数をニューラルネットワークに適用し、その性能を評価する。

Correction Regularized ReLU（CRReLU）の導出

EAFOを活用することで、新しい活性化関数Correction Regularized ReLU（CRReLU） が導出されました。CRReLUは、以下の特性を持つReLUの改良版です。

ReLUの「ニューロンの死滅（Dying ReLU）」問題を解消
負の入力値にも情報を流し、ネットワークの表現力を向上
学習の安定性を高め、より高速な収束を実現

CRReLUの数式表現は以下の通りです。

ここで、ε は学習可能なパラメータであり、最適化に応じて調整されます。

実験

画像分類

CIFAR-10、CIFAR-100、ImageNet-1Kのデータセットを用いて、Vision Transformer（ViT）やData-Efficient Image Transformer（DeiT）などで性能を評価しました。その結果、CRReLUは他の活性化関数（GELU, ELU, PReLUなど）よりも一貫して高い精度を達成しました。