一箭双雕"：调整可控模型与提高性能之间的权衡。

计算与语言 11/05/2024

三个要点
✔️ 本文提出了一种在人工智能（AI）调整中设定目标优先级并根据这些优先级调整模型的方法。
✔️ 实验表明，SFT（单因子技术）、DPO（双过程结果）、CPSFT（条件单因子技术）和 CPO（条件过程结果）方法的可控性得到了评估。结果）方法的可控性进行了评估。结果表明，CPSFT 和 CPO 比其他方法更具可控性。
这些结果可在
✔️ 网站上查阅。未来的研究需要验证 CPO 的实用性和有效性，以便进一步在现实世界中应用和进行工业部署，因为 CPO 的性能可以通过引入更复杂的协调目标和新的控制方法得到进一步提高。

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
written by Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Jiexin Wang, Huimin Chen, Bowen Sun, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
(Submitted on 29 Feb 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Systems and Control (eess.SY)

code：

本文中使用的图片来自论文、介绍性幻灯片或参考这些图片制作而成。

概述

人工智能（AI）调整的重点是将模型的反应与人类的偏好和价值观相匹配。然而，人类的偏好是复杂的，改善一个目标可能会以牺牲另一个目标为代价。我们称之为 "调整税"。迄今为止所使用的调整方法只能在一个方向上起作用，对于某些目标来说不够灵活。因此，本文提出了一种优化优先级的方法。它为不同的目标设定优先级，并根据这些优先级调整模型。实验表明，这种方法能产生与"有用性"、"诚实性 "和 "无害性"（3H）等偏好相匹配的响应。此外，与传统方法相比，使用不同的数据和目标会产生更好的结果，减少调整税的影响，并改善多个目标的协调。

介绍。

大规模语言模型（LLMs）作为人类的人工智能助手非常有用，重要的是它们的运行要符合人类的偏好和价值观。以往的研究提出了一个 "3H "协调目标，即有用、诚实和无害的 LLM。然而，这一目标非常复杂，有时还会相互冲突。例如，一个有用的 LLM 不应该拒绝回答危险的问题，这是一个两难的问题。以前的研究已经采取了一些方法来解决这个问题，但尚未完全解决。

本研究提出了一种新型算法--可控优先级优化（CPO），以同时实现多个目标。该算法根据明确的优先级条件控制 LLM 的行为，并平衡多个目标。

(a) 在多目标优化中，试图优化多个目标往往会导致目标之间的冲突。

(b) 在可控生成中，假设 H1 与有用性有关，H2 与诚实有关：如果只提供 H1，优化方向就会被限制在平面上。另一方面，如果同时提供 H1 和 H2，优化方向就会被限制在一条直线上。

建议方法

所提出的方法，即可控首选优化（CPO）算法，允许在训练反映人类价值观和偏好的人工智能模型时同时考虑和调整多个目标。

上图显示了可控优先级优化的总体框架。

首先，CPO 算法通过偏好标记确定模型行为的调整方向。CPO 算法的主要思想之一是将多目标优化问题转化为条件多目标优化问题。CPO 算法的主要思想之一是将多目标优化问题转化为条件多目标优化问题，这样就可以同时优化多个目标和条件。具体来说，定义了代表人类价值和偏好的目标函数，并对模型进行训练，使其同时达到最大化。这可确保模型经过调整后与多种价值相匹配。CPO 算法还包括两个阶段：可控优先级监控微调和可控直接优先级优化。可控优先级监控微调可根据优先级条件对模型进行微调，而可控直接优先级优化则可控制直接优先级并同时调整多个目标。

这些方法结合在一起，使模型能够对人类的价值观和偏好做出适当的反应，并适应复杂的情况；CPO 算法是提高人工智能系统性能和灵活性的一种很有前途的方法。