「二兎を追う者は一兎をも得ず」: 制御可能なモデルの調整と性能向上のトレードオフ
3つの要点
✔️ 人工知能(AI)の調整において目的の優先順位を設定し、モデルをその優先順位に従って調整する手法を提案しています。
✔️ 実験では、SFT (Single Factorial Technique)、DPO (Dual Process Outcome)、CPSFT (Conditional Single Factorial Technique)、CPO (Conditional Process Outcome) という手法の制御性を評価しました。結果からは、CPSFTとCPOが他の手法よりも制御性が高いことが示されました。
✔️ 今後は、より複雑な調整目標や新しい制御手法の導入によって、CPOの性能をさらに向上させることが可能になり、さらなる実世界の適用や産業への展開に向けて、CPOの実用性や効果を検証するための研究が必要です。
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
written by Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Jiexin Wang, Huimin Chen, Bowen Sun, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
(Submitted on 29 Feb 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Systems and Control (eess.SY)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
人工知能(AI)の調整では、モデルの反応と人間の好みや価値観の一致を重視します。しかし、人間の好みは複雑で、ある目的を向上させると他の目的が犠牲になることがあります。これを「調整税」と呼ぶことにします。これまでの調整方法は片方向にしか働かず、目的によっては柔軟性が低いです。そのため、本論文では優先順位を最適化する方法を提案しています。これにより、異なる目的の優先順位を設定し、モデルをその優先順位に従って調整します。実験により、この方法で「有用性」「誠実さ」「無害性」(3H)といった好みに合った反応を得られることがわかりました。さらに、多様なデータと目標を使うことで、従来の方法よりも良い結果が得られ、調整税の影響を軽減し、複数の目的に対する調整が改善されます。
はじめに
大規模な言語モデル(LLM)は、人間のAIアシスタントとして非常に有用であり、人間の好みや価値観に合わせて動作することが重要です。これまでの研究では、役に立つ、誠実で無害なLLMを目指す「3H」調整目標が提案されています。しかし、この目標は複雑で、時には相反する要素があります。例えば、親切なLLMは、危険な質問に答えることを拒否すべきではないというジレンマがあります。これまでの研究では、この問題を解決するアプローチが取られてきましたが、完全な解決には至っていませんでした。
本研究では、複数の目標を同時に達成するための新しいアルゴリズムである制御可能な優先度最適化(CPO)が提案されています。このアルゴリズムは、明示的な優先条件に基づいてLLMの動作を制御し、複数の目標のバランスをとることができます。
(a) 多目的最適化においては、複数の目標を最適化しようとすると、しばしばそれらの目標の間で競合が生じます。
(b) 制御可能な生成において、H1が有用性に関連し、H2が誠実さに関連するとします。H1のみが提供される場合、最適化の方向は平面上に制限されます。一方、H1とH2の両方が提供される場合、最適化の方向は直線上に制限されます。
関連研究
LLMは多くの知識を持っていますが、人間の意図を理解していないため、実際のシステムに導入する前に調整する必要があります。これまでの研究では、有用性と無害性の改善に重点が置かれてきましたが、正直さのための調整は注目されていませんでした。最近の研究では、教師付き微調整によってLLMを訓練し、不確実性を拒否または表明することで、知識の境界を越える質問に対処しています。調整には、調整税と呼ばれる問題もあります。これは、LLMが特定の側面で妥協する可能性があることを指します。この問題を解決するために、ジェイルブレイク対応との安全性の調整が検討されてきましたが、過剰な安全性トレーニングがモデルを無反応にする可能性があります。そのため、多目的最適化間のトレードオフを軽減することが重要です。
また、推論中の制御可能なアライメントに関する研究も進んでいます。特定の目的に基づいてカスタマイズされた生成を検討し、異なる目的に合わせるために様々な手法が提案されています。本論文のアプローチは、複数の調整目標間の矛盾を軽減することに焦点を当てています。
提案手法
提案された手法である制御可能な優先最適化(CPO)アルゴリズムは、人間の価値観や好みを反映したAIモデルの訓練において、複数の目標を同時に考慮し、調整することを可能にします。
上図は、制御可能な優先度の最適化の全体的なフレームワークです。
まず、CPOアルゴリズムでは、優先トークンを介してモデルの振る舞いを調整する方向を決定します。これにより、モデルが特定の目標や条件に対して適切に動作するように制御できます。CPOアルゴリズムの主要なアイデアの1つは、多目的最適化問題を条件付き多目的最適化問題に変換することです。これにより、複数の目標や条件を同時に最適化できます。具体的には、人間の価値観や好みを表す目的関数を定義し、それらを同時に最大化するようにモデルを訓練します。これにより、モデルが複数の価値観に合致するように調整されます。また、CPOアルゴリズムには制御可能な優先度監視微調整と制御可能な直接優先度の最適化の2つの段階が含まれています。制御可能な優先度監視微調整では、優先条件を考慮してモデルを微調整し、制御可能な直接優先度の最適化では、直接優先度を制御し、複数の目標を同時に調整します。
これらの手法を組み合わせることで、モデルが人間の価値観や好みに適切に反応し、複雑な状況に適応できるようになります。CPOアルゴリズムは、AIシステムの性能と柔軟性を向上させるための有望な手法として注目されています。
実験
制御可能な優先最適化(CPO)アルゴリズムの提案とその性能評価が行われました。
「3H」指標(有用性、誠実さ、無害性)の評価
データセットとベースモデルの設定では、UltraFeedbackやUltraSafetyといったデータセットを使用し、安全で制御可能なモデルをトレーニングしました。CPSFTフェーズでは、モデルのマルチターンの対話を強化するためにトレーニングを行いました。
実験では、有用性、誠実さ、無害性の側面でSFT (Single Factorial Technique)、DPO (Dual Process Outcome)、CPSFT (Conditional Single Factorial Technique)、CPO (Conditional Process Outcome)の制御性を評価し、結果ではCPSFTとCPOが他の手法よりも優れた制御性を示しました。
CPOの多目的調整評価
同じアライメントデータを使用して、CPOの効果を評価し、Zephyr-7Bbeta、Mistral-7B-Instructv0.2、WizardLM-7B、LLaMA2-7B-Chatといったベースラインと比較しました。
結果では、CPOがDPOよりも優れたパフォーマンスを示し、特に有用性と誠実さを維持しながら高い安全性スコアを獲得しました。この実験により、CPOアルゴリズムが有用性、誠実さ、無害性の側面で効果的に制御可能であり、複数の目標を同時に達成することができることが示されました。
パレート最適評価
CPSFTとCPOを2つのベースラインと比較し、有用性、誠実さ、無害性の側面でのパフォーマンスを評価しました。専門家がトレーニングされた応答を使用し、トレードオフを調べることで、各側面での最高スコアを探求しました。結果では、CPOが他の手法よりも高いパフォーマンスを示しました。有用性(H1)、誠実さ(H2)、無害性(H3)のパフォーマンスのトレードオフは以下の通りです。
(a-c):最も高い3H評価のサブセットでトレーニングされた専門モデル
(d):最高評価のサブセットの混合でトレーニングされたSFTモデル
(e-f):データセットでトレーニングされたCPSFTモデルとCPOモデル
感度分析
有用性と誠実さの目的に対する2つの重要なハイパーパラメータの影響を調査しました。それにより、目的の重要性間のトレードオフや制御性と性能の最大化の間の関係が明らかになりました。
モデルの制御性とパフォーマンスに対する λ と ω のさまざまな値の影響を調査します。 λの値が大きくなるにつれて制御性が強化され、最初は効果が向上し、その後減少します。 ω = 0.4 では、有用性と誠実さの間の満足のいくバランスが達成されます。
ケーススタディ
CPOの制御可能性をデモンストレーションしました。さまざまなシナリオでのモデルの能力を示し、ユーザーの価値観に合わせた応答を生成できることを示しました。これらの実験結果は、CPOアルゴリズムが有用性、誠実さ、無害性の側面で効果的に制御可能であり、さまざまなシナリオでのモデルの性能を向上させることができることを示しています。
結論
この論文では、LLM(大規模言語モデル)の調整におけるパフォーマンスのトレードオフの問題を解決する新しい手法を紹介しています。この手法は、制御可能な好みの最適化(CPO)と呼ばれ、教師あり微調整と好みの学習の両方を組み合わせています。CPOの評価では、有用性、誠実さ、無害性のすべてに優れた柔軟性とパフォーマンスを示すことが確認されています。
制御可能な好みの最適化(CPO)は、LLMの調整における重要な進歩です。将来的には、CPOのさらなる改良や拡張が期待されます。例えば、より複雑な調整目標や新しい制御手法の導入によって、CPOの性能をさらに向上させることが可能です。また、さらなる実世界の適用や産業への展開に向けて、CPOの実用性や効果を検証するための研究が必要です。
この記事に関するカテゴリー