利用信息熵和 CRReLU 优化激活函数的方法

损失函数 25/02/2025

三个要点
✔️ 基于信息熵的理论框架证明了最差激活函数（WAFBC）的存在。
✔️ 基于熵的激活函数优化（EAFO）被提出来设计动态和静态激活函数。
✔️ 衍生出一种新的激活函数 CRReLU，并在图像分类和语言建模任务中证明了其优于传统函数的性能。

A Method on Searching Better Activation Functions
written by Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang
(Submitted on 19 May 2024)
Comments: 16 pages,3 figures
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

近年来，深度学习的发展使神经网络（ANN：Artificial Neural Networks，人工神经网络） 的性能显著提高。其中，激活函数（AFF ）是确保网络非线性和实现复杂模式学习的关键要素之一。然而，激活函数的选择历来主要基于经验法则 ，因此缺乏理论指导。因此，寻找更好的激活函数一直很困难，模型的优化也不够先进。

针对这一问题，本文提出了一种从信息熵（Information Entropy） 角度优化激活函数的方法，并推导出一种新的激活函数--修正正则化ReLU（CRReLU）CRReLU、在典型激活函数ReLU（整流线性单元） 的基础上，CRReLU 通过使用一种基于信息熵的优化方法，即基于熵的激活函数优化（EAFO），实现了更好的性能。该系统基于 ReLU（整流线性单元）。

建议方法

信息熵与激活函数之间的关系

在本研究中，我们重点研究了信息熵与激活函数之间的关系 。信息熵是数据不确定性的度量，在神经网络的训练中发挥着重要作用。具体来说，我们得出了以下关系。

激活函数的高信息熵会增加学习的不确定性，降低分类性能。
通过最小化信息熵，可以设计出更有效的激活函数。
可以证明最差激活函数 (WAFBC) 的存在，并在此基础上设计出更好的激活函数。

基于熵的激活函数优化（EAFO）

本研究提出了一种新的激活函数优化方法，即基于熵的激活函数优化法（EAFO ）。该方法包括三个步骤

计算现有激活函数的信息熵，从理论上得出最差激活函数 (WAFBC)。
优化激活函数，使信息熵参照世界粮食产量指数（WAFBC）有所降低。
将优化后的激活函数应用于神经网络，并对其性能进行评估。

修正正则化 ReLU (CRReLU) 的推导。

CRReLU 是 ReLU 的改进版，具有以下特性

解决 ReLU 中的 "Dying ReLU "问题（死亡神经元）。
允许信息通过负输入值流动，从而提高了网络的表现力。
提高学习稳定性，加快收敛速度

CRReLU 公式表达式如下。

其中，ε 是一个可学习的参数，根据优化结果进行调整。

试验

图像分类

在 CIFAR-10、CIFAR-100 和 ImageNet-1K 数据集（包括 Vision Transformer (ViT) 和 Data-Efficient Image Transformer (DeiT)）上进行了性能评估。结果表明，与其他激活函数（如 GELU、ELU、PReLU）相比，CRReLU 的准确率一直较高。