赶上最新的AI论文

利用信息熵和 CRReLU 优化激活函数的方法

利用信息熵和 CRReLU 优化激活函数的方法

损失函数

三个要点
✔️ 基于信息熵的理论框架证明了最差激活函数(WAFBC)的存在。
✔️ 基于熵的激活函数优化(EAFO)被提出来设计动态和静态激活函数。

✔️ 衍生出一种新的激活函数 CRReLU,并在图像分类和语言建模任务中证明了其优于传统函数的性能。

A Method on Searching Better Activation Functions
written by Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang
(Submitted on 19 May 2024)
Comments:
16 pages,3 figures
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

近年来,深度学习的发展使神经网络(ANN:Artificial Neural Networks,人工神经网络) 的性能显著提高。其中,激活函数(AFF )是确保网络非线性和实现复杂模式学习的关键要素之一。然而,激活函数的选择历来主要基于经验法则 ,因此缺乏理论指导。因此,寻找更好的激活函数一直很困难,模型的优化也不够先进。

针对这一问题,本文提出了一种从信息熵(Information Entropy) 角度优化激活函数的方法,并推导出一种新的激活函数--修正正则化ReLU(CRReLU)CRReLU、在典型激活函数ReLU(整流线性单元) 的基础上,CRReLU 通过使用一种基于信息熵的优化方法,即基于熵的激活函数优化(EAFO),实现了更好的性能。该系统基于 ReLU(整流线性单元)。

相关研究

激活函数的重要性和现有方法

激活函数是影响神经网络性能的关键因素之一,它的选择会极大地影响训练的稳定性和模型的准确性。在以往的研究中,人们开发并广泛使用了以下激活函数

  • SigmoidTanh
    • 常用于早期的神经网络,但容易出现梯度消失问题。
  • ReLU(整流线性单元)
    • 这种方法计算简单,具有防止梯度损失的特性,但也面临着"神经元死亡 " 和**"偏差偏见 "**的挑战。
  • Leaky ReLU / Parametric ReLU (PReLU):
    • 改进负输入的小数值输出,以改善 ReLU 问题。
  • GELU(高斯误差线性单元)
    • 它在 BERT 和 GPT-4 等大规模语言模型 (LLM) 中表现出色,但其数学特性却不甚明了。

这些激活函数是根据经验评估选择的,并没有经过系统优化。为解决这一问题,本文引入了一种基于信息熵的理论方法,并提出了一种寻找最佳激活函数的方法。

建议方法

信息熵与激活函数之间的关系

在本研究中,我们重点研究了信息熵与激活函数之间的关系 。信息熵是数据不确定性的度量,在神经网络的训练中发挥着重要作用。具体来说,我们得出了以下关系。

  1. 激活函数的高信息熵会增加学习的不确定性,降低分类性能。
  2. 通过最小化信息熵,可以设计出更有效的激活函数。
  3. 可以证明最差激活函数 (WAFBC) 的存在,并在此基础上设计出更好的激活函数。

基于熵的激活函数优化(EAFO)

本研究提出了一种新的激活函数优化方法,即基于熵的激活函数优化法(EAFO )。该方法包括三个步骤

  1. 计算现有激活函数的信息熵,从理论上得出最差激活函数 (WAFBC)。
  2. 优化激活函数,使信息熵参照世界粮食产量指数(WAFBC)有所降低。
  3. 将优化后的激活函数应用于神经网络,并对其性能进行评估。

修正正则化 ReLU (CRReLU) 的推导。

CRReLU 是 ReLU 的改进版,具有以下特性

  • 解决 ReLU 中的 "Dying ReLU "问题(死亡神经元)。
  • 允许信息通过负输入值流动,从而提高了网络的表现力。
  • 提高学习稳定性,加快收敛速度

CRReLU 公式表达式如下。

其中,ε 是一个可学习的参数,根据优化结果进行调整。

试验

图像分类

在 CIFAR-10、CIFAR-100 和 ImageNet-1K 数据集(包括 Vision Transformer (ViT) 和 Data-Efficient Image Transformer (DeiT))上进行了性能评估。结果表明,与其他激活函数(如 GELU、ELU、PReLU)相比,CRReLU 的准确率一直较高。

例如,表1 和表2显示,在 CIFAR-10 和 CIFAR-100 中,CRReLU 的 top-1 精确度最高。特别是,CIFAR-100 明显优于 PReLU 和 Mish,它们都是 ReLU 的改进版本。

大规模语言模型 (LLM)

此外,GPT-2 还用于微调大规模语言模型。该任务使用斯坦福人类偏好(SHP)和人类学 HH 数据集来比较 CRReLU 和 GELU 的性能。

结果见表 4(第 8 页),CRReLU 的评级指数普遍高于 GELU。

结论

通过引入一个理论框架,本文为设计以前的经验激活函数提供了一种新方法:利用 EAFO,可以在现有函数的基础上进行有效改进,并创建新函数,如 CRReLU。

不过,EAFO 的进一步应用以及提高其计算效率的方法仍是未来工作的重点。特别是,除了图像分类和语言任务之外,还可以通过探索 EAFO 在其他领域的适用性来取得进一步发展。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们