GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

优化和控制 22/08/2024

三个要点
✔️ ControlBench 数据集的开发建立了一个大学级别的问题集，涵盖控制工程的基础知识和应用，用于评估 LLM 的性能。
✔️ 评估 LLM 解决控制问题的能力对 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 这三种 LLM 的评估表明，Claude 3 Opus 的性能最佳。不过，也发现了需要视觉信息和计算错误的问题。
✔️ ControlBench-C 的建议 ControlBench 的简化版本 ControlBench-C 已经开发出来，让非控制工程专家也能轻松评估 LLM 性能。

Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
written by Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud, Peter Seiler, Lianhui Qin, Bin Hu
(Submitted on 4 Apr 2024)
Comments: Published on arxiv.
Subjects: Optimization and Control (math.OC); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

近年来，GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型（LLM）迅速发展，展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域，有可能利用 LLM 的高级推理能力。然而，人们对 LLM 解决控制问题的能力还不完全了解。

因此，本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench，并全面评估了 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性，并为人工智能与控制工程的未来融合提供重要见解。

研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集，涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域，包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题，旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料，并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释，可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4 和 Claude 3 Opus 的错误类型和百分比；定义了七种错误模式，并对其百分比进行了比较。

首先，可以看出 GPT-4 的主要挑战在于其 "有限的推理能力"。换句话说，从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面，Claude 3 Opus 面临的最大挑战是 "计算错误"。它似乎很容易在数学处理方面出错，如公式的转换和数字计算的准确性。

然而，两者之间的比较表明，Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明，在对控制理论的理解和推理能力方面，Claude 3 Opus 更胜一筹。

因此，利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析，可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义，但对于非控制工程专家来说，难度偏高。因此，作者提出了一个更简单的版本，即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式，无需控制工程方面的专业知识，就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理，并计算正确答案百分比（ACC）和自我修正后的正确答案百分比（ACC-s）。通过这种方法，非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充：ControlBench 提供详细的见解，而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中，两者将分别使用。

结论

本文开创性地研究了大规模语言模型（LLM）在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集，并用三种 LLM（GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra）对其进行了评估。

结果表明，Claude 3 Opus 在解决控制问题方面表现最佳。另一方面，也证实了 LLMs 仍存在一些问题，如处理需要视觉信息的问题和计算错误的问题。

今后的研究问题包括：.

- 扩展 ControlBench 数据集：解决更复杂的控制问题。

- 开发以控制为导向的提示方法：设计 LLM 以最大限度地发挥其能力

- 提高 LLM 的推理能力和计算精度：改进精确控制问题的解决。

- 建立高效的自动评估方法：促进控制工程领域的 LLM 性能评估。

通过这些努力，人工智能与控制工程的融合有望得到进一步发展。这项研究代表着在这一领域迈出的重要一步。

与本文相关的类别

Sasayama