Meta 为贝叶斯优化带来意想不到的改进

贝叶斯优化 19/02/2024

三个要点
✔️ 对于评估成本较高的系统而言，贝叶斯优化是一种高效的优化技术
✔️ 计算预期改进量（EI）可以减少改进解决方案所需的试错
✔️ 在参数为高维时，通过解决 EI 故障实现意想不到的改进

Unexpected Improvements to Expected Improvement for Bayesian Optimization
written by Sebastian Ament, Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy
(Submitted on 31 Oct 2023 (v1), last revised 18 Jan 2024 (this version, v2))
Comments: NeurIPS 2023 Spotlight
Subjects: Machine Learning (cs.LG); Numerical Analysis (math.NA); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

贝叶斯优化是一种针对高评估成本系统的高效优化技术。它可应用于航空航天工程、生物、制药、材料工程、机器人、机器学习中的超参数调整以及许多其他领域。

在这里，高评估成本指的是评估需要更长的时间，花费更多的金钱，或需要更多的时间和精力进行评估。例如，如果制作和评估一个产品原型需要一周时间，那么每次评估就需要一周时间、制作原型的资金以及制作和评估人员的时间和精力。这样反复试错，会付出很多代价。

因此，贝叶斯优化是一种优化技术，它能满足以尽可能少的评估来获得更好产品的需求。

在贝叶斯优化技术中，该技术包括创建一个预测模型，预测原型条件与评估结果之间的对应关系，根据预测模型估计原型条件的好坏，实际评估现阶段估计为最佳的原型条件，并反复将这些数据纳入预测模型。

在贝叶斯优化中，表示原型条件好坏的函数称为获取函数。获取函数的一个典型例子是预期改进（EI）。

本文介绍的论文发现了一个问题，即当需要设置为原型条件的值很多时，以及当良好的评估结果集中在某些条件周围时，EI 值及其梯度会消失，并表明这种梯度消失会阻止解决方案的改进。Meta 公司（前身为 Facebook）的研究人员提出了一种可避免这种梯度消失的对数 EI，数值实验表明其性能有所改善。

顺便提一下，本文的标题 "意料之外的进步"（Unexpected Improvement）取自本文所述论文的标题 "意料之中的进步"（UNEXPECTED IMPROVEMENTS）。英语中的预期改进量是 Expected Improvement，由于这次 EI 的改进带来了出乎意料的绩效改进，我想我试图用 Expected Improvement 这个词来使标题更有冲击力。

本节将解释传统的 EI 方法及其问题，以及解决这些问题的拟议 logEI 方法及其评估结果。

传统方法预期改进 (EI)

如导言所述，贝叶斯优化法使用获取函数来计算原型条件（以下简称参数）的优劣。获取函数的一个典型例子就是预期改进（EI）。

对于给定的参数值，贝叶斯优化预测模型会返回两个值：预测值和预测不确定性。例如，可以有 "预测值好、预测不确定性低的参数 "和 "预测值不太好、预测不确定性高的参数"。

乍一看，"预测能力强 "和 "预测不确定性低 "的参数似乎是最佳条件。在必须立即选择产品最终使用条件的情况下，这一点是正确的。

但如果现在还不是缩小参数范围的时候，而是探索重大改进的可能性呢？低预测不确定性一词既有消极的一面，即预测不可依赖，实际上可能是一个糟糕的评估结果，也有积极的一面，即有很大的发展空间。

因此，看来有效的方法不是只看增长潜力，也不是只看现阶段的良好预测值，而是看平均值，并评估与当前最佳评估结果相比改进可能最好的原型条件。通过预测模型计算出与当前最佳评估结果相比的平均改进量，作为预期改进量。

预期改进度是贝叶斯优化法中一个非常常用的获取函数，部分原因是它作为一个指标很容易理解。

当参数维度较高时，预期改进 EI 失败

当使用 EI 作为获取函数时，我们要寻找能使 EI 最大化的参数值，而一种称为梯度法的优化技术就是用来实现这种最大化的。梯度法也被称为登山法，可以与登山相比较。

换句话说，如果把优化看作是一种到达山顶的方法，叫做获取函数，那么从现在所处的位置出发，向山体坡度最大的方向移动，就是向山体坡度最严重的方向移动（也就是最快到达山顶的方向），如果坡度达到零，就是山顶。这就是调整参数的方法。

能够正确计算坡度非常重要，因为您需要依靠坡度到达山顶。

然而，本文发现了一个问题，即在参数维度较高的问题上，EI 的梯度会消失，而且具有良好评估结果的参数值会集中在某些区域。

Ackley 函数是用于评估贝叶斯优化方法的人工问题之一。该函数恰好能使获得良好评估结果的参数值集中在某些区域。

图 1 显示了当该函数的参数值设置为随机值时，梯度为零（本文定义为小于或等于 10 的-10 次方）的情况所占百分比。图中，d 是参数的维数（需要设置的参数个数），横轴是预测模型的训练数据个数，纵轴是梯度为零的百分比。

如图所示，训练数据越多，维数越大，梯度为零的比例就越高。特别是当训练数据的数量为 80 或更多且 d 为 4 或更多时，梯度为零的比例几乎为 1（100%）。

图 2 显示了正常 EI 和拟议方法的对数 EI 梯度随参数 x 的变化情况。这是一个具有一维参数的简单优化问题。请注意，横轴是参数值，纵轴是 log(EI) 或 LogEI。log(EI) 和 LogEI 不同，log(EI) 是传统方法，LogEI 是建议方法。

拟议方法的 LogEI 值（绿色实线）不为零，而传统方法的 EI 值（橙色虚线）在图中的粉色区域为零（EI 为零，表示输入的值不是对数函数 log 所定义的值，无法绘制橙色虚线）。

LogEI 解决了传统的 EI 梯度消失问题（EI 在很大范围内为零）。

拟议方法 LogEI

拟议方法的 LogEI 非常简单：它是一个复合函数，将 EI 的函数替换为对数函数 log 的输入。因此，从数学角度看，该值可视为 EI 的对数计算值。

我们在本文中找不到任何关于我们为何关注 Log 的参考文献，但直观原因似乎如下。

对数函数是这样一种函数：当输入变小时，输出向负方向急剧波动；当输入变大时，输出值缓慢增加。可以把它看作是一个放大小数值、抑制大数值的函数。因此，可以把它看作是一个放大镜，可以放大小的梯度，从而缓解梯度消失。

然而，当预测模型的预测效果几乎没有改善，而且预测的不确定性非常小时，简单的数值实现（如 log(EI)）会导致 EI 为零。在这种情况下，输入 0 的对数函数没有定义，因此 log(EI) 就变得无法定义。从数学上讲，EI 不可能为零，但从数值上讲，EI 可能为零。

因此，为了以数值稳定和准确的方式计算 log(EI)，本文提出将公式 1 作为 LogEI 来实现�

这在数学上等同于 log(EI)。对于等式 1 中的 log_h(z)，z > -1 的等式相当于 log(EI)的简单实现。顺便提一下，输入 z 的是 "改进量"="预测值 µ(x) - 当前最佳值"，以及预测的不确定性（预测标准偏差）。对数值分别是标准化正态密度函数和累积分布函数。

简单的实现在 z>-1 的情况下没有问题，但在-1≥z 的情况下就会出现问题，这也是本文的计算公式看起来非常复杂的原因。本文中的 log1mexp 和 erfxc 是 log(1-exp(z)), exp(z*z)erfc(z) 的数值稳定实现，其中 erfc 是互补误差函数。

数值实验的评估结果

用于评估拟议方法的人工问题（待优化的目标函数）如公式 2 所示。

这是一个参数维度为 10 的平方和优化问题。这个问题可以看作是一个非常简单的优化问题。

这一次，我们从 1024 个随机初始值出发，进行了 20 次评估实验。

评价结果如图 3 所示。横轴为评价次数，纵轴为里格（真正最优解的评价结果与该方法获得的临时最佳评价结果之差，越小越好）。图中实线表示 20 次评价实验的平均值，浅色阴影表示平均值的±2 个标准差。

如图所示，当评估次数超过 75 次后，EI 的 riglet 没有任何改善。相比之下，随着评估次数的增加，拟议方法 LogEI 的 riglet 持续下降。

在一些案例中，即使是非常简单的优化问题也无法使用普通 EI 成功优化，而使用 LogEI 则可以成功优化。

结论

在本期中，一篇关于预期改进 EI（一种典型的贝叶斯优化获取函数）的论文指出了参数为高维时的问题，并介绍了使用 LogEI（计算 EI 的对数）的简单解决方案。

确定挑战对于改进方法非常重要。一旦发现问题，就可以像本文一样简单地解决问题。虽然我们关注的是 EI，但本文还提到了基于预期改进的其他衍生方法，这些方法具有非常广泛的影响，是您在使用贝叶斯优化时应该了解的信息。

此外，这一次的主题更加面向实施，因为在数学上，这个问题与传统的预期改进并无不同，但在尝试进行数值计算时，即在计算机上计算时，却出现了问题。这表明，要取得实际成功，不仅需要算法方面的数学思维，还需要数值计算方面的缜密思维。

与本文相关的类别

Yokota

Meta 为贝叶斯优化带来意想不到的改进

介绍

传统方法 预期改进 (EI)

当参数维度较高时，预期改进 EI 失败

拟议方法 LogEI

数值实验的评估结果

结论

传统方法预期改进 (EI)