
利用信息熵和 CRReLU 优化激活函数的方法
三个要点
✔️ 基于信息熵的理论框架证明了最差激活函数(WAFBC)的存在。
✔️ 基于熵的激活函数优化(EAFO)被提出来设计动态和静态激活函数。
✔️ 衍生出一种新的激活函数 CRReLU,并在图像分类和语言建模任务中证明了其优于传统函数的性能。
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
近年来,深度学习的发展使神经网络(ANN:Artificial Neural Networks,人工神经网络) 的性能显著提高。其中,激活函数(AFF )是确保网络非线性和实现复杂模式学习的关键要素之一。然而,激活函数的选择历来主要基于经验法则 ,因此缺乏理论指导。因此,寻找更好的激活函数一直很困难,模型的优化也不够先进。
针对这一问题,本文提出了一种从信息熵(Information Entropy) 角度优化激活函数的方法,并推导出一种新的激活函数--修正正则化ReLU(CRReLU)CRReLU、在典型激活函数ReLU(整流线性单元) 的基础上,CRReLU 通过使用一种基于信息熵的优化方法,即基于熵的激活函数优化(EAFO),实现了更好的性能。该系统基于 ReLU(整流线性单元)。
相关研究
激活函数的重要性和现有方法
激活函数是影响神经网络性能的关键因素之一,它的选择会极大地影响训练的稳定性和模型的准确性。在以往的研究中,人们开发并广泛使用了以下激活函数
- Sigmoid 和 Tanh:
- 常用于早期的神经网络,但容易出现梯度消失问题。
- ReLU(整流线性单元):
- 这种方法计算简单,具有防止梯度损失的特性,但也面临着"神经元死亡 " 和**"偏差偏见 "**的挑战。
- Leaky ReLU / Parametric ReLU (PReLU):
- 改进负输入的小数值输出,以改善 ReLU 问题。
- GELU(高斯误差线性单元):
- 它在 BERT 和 GPT-4 等大规模语言模型 (LLM) 中表现出色,但其数学特性却不甚明了。
这些激活函数是根据经验评估选择的,并没有经过系统优化。为解决这一问题,本文引入了一种基于信息熵的理论方法,并提出了一种寻找最佳激活函数的方法。
建议方法
信息熵与激活函数之间的关系
在本研究中,我们重点研究了信息熵与激活函数之间的关系 。信息熵是数据不确定性的度量,在神经网络的训练中发挥着重要作用。具体来说,我们得出了以下关系。
- 激活函数的高信息熵会增加学习的不确定性,降低分类性能。
- 通过最小化信息熵,可以设计出更有效的激活函数。
- 可以证明最差激活函数 (WAFBC) 的存在,并在此基础上设计出更好的激活函数。
基于熵的激活函数优化(EAFO)
本研究提出了一种新的激活函数优化方法,即基于熵的激活函数优化法(EAFO )。该方法包括三个步骤
- 计算现有激活函数的信息熵,从理论上得出最差激活函数 (WAFBC)。
- 优化激活函数,使信息熵参照世界粮食产量指数(WAFBC)有所降低。
- 将优化后的激活函数应用于神经网络,并对其性能进行评估。
修正正则化 ReLU (CRReLU) 的推导。
CRReLU 是 ReLU 的改进版,具有以下特性
- 解决 ReLU 中的 "Dying ReLU "问题(死亡神经元)。
- 允许信息通过负输入值流动,从而提高了网络的表现力。
- 提高学习稳定性,加快收敛速度
CRReLU 公式表达式如下。
其中,ε 是一个可学习的参数,根据优化结果进行调整。
试验
图像分类
在 CIFAR-10、CIFAR-100 和 ImageNet-1K 数据集(包括 Vision Transformer (ViT) 和 Data-Efficient Image Transformer (DeiT))上进行了性能评估。结果表明,与其他激活函数(如 GELU、ELU、PReLU)相比,CRReLU 的准确率一直较高。
例如,表1 和表2显示,在 CIFAR-10 和 CIFAR-100 中,CRReLU 的 top-1 精确度最高。特别是,CIFAR-100 明显优于 PReLU 和 Mish,它们都是 ReLU 的改进版本。
大规模语言模型 (LLM)
此外,GPT-2 还用于微调大规模语言模型。该任务使用斯坦福人类偏好(SHP)和人类学 HH 数据集来比较 CRReLU 和 GELU 的性能。
结果见表 4(第 8 页),CRReLU 的评级指数普遍高于 GELU。
结论
通过引入一个理论框架,本文为设计以前的经验激活函数提供了一种新方法:利用 EAFO,可以在现有函数的基础上进行有效改进,并创建新函数,如 CRReLU。
不过,EAFO 的进一步应用以及提高其计算效率的方法仍是未来工作的重点。特别是,除了图像分类和语言任务之外,还可以通过探索 EAFO 在其他领域的适用性来取得进一步发展。
与本文相关的类别