
基于人类偏好的人工智能助手评估新方法
三个要点
✔️提出两个新的基准,以适当评估对法律硕士产出的 "人类偏好"
✔️ 测试法律硕士即法官的实用性,该方法使用最先进的法律硕士作为评分者,对人类评分进行补充
✔️ 确认 GPT-4 评估与人类评估的一致性很高,与人类评估一样可靠
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
written by Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
(Submitted on 9 Jun 2023 (v1), last revised 24 Dec 2023 (this version, v4))
Comments: NeurIPS 2023 Datasets and Benchmarks Track
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,使用 "聊天助手 "和 "聊天机器人 "的服务层出不穷。这些工具利用近年来备受关注的大型语言模型(LLMs),并应用有监督的微调和从人类反馈中强化学习(RLHF)来提高用自然语言说话的能力。反馈(RLHF))来提高人们的自然语言能力,以适应人们的偏好。然而,传统的基准无法充分评估这种适应人们偏好的能力。
即使是在具有代表性的基准测试MMLU(大规模多任务语言理解)和HELM(语言模型整体评估)中,根据人类偏好定制的模型和基我们发现,模型性能的差异无法得到充分评估。换句话说,用户对"聊天助手 "和 "聊天机器人"的评价与传统基准之间存在很大差距,因此这些基准在实际应用中并不可行。
造成这一差距的原因是,传统基准只能衡量 LLM 在特定任务(如多项选择题或搜索问题)上的性能。特别是,它们无法评估没有明确目标的开放式任务,例如通过多次交互了解用户意图或了解人们偏好的任务。
因此,本文提出了两个新基准来填补这一空白:一个是 "MT-基准"。它使用开放式问题来评估聊天机器人的对话能力和遵循用户指令的能力。另一个是 "聊天机器人竞技场"。这是一个众包平台,用户可以同时与两个聊天机器人对话,并根据个人喜好对对话进行评分。这样做的目的是正确评估一个人是否适合自己的喜好,而传统的评估方法往往忽略了这一点。
此外,人工评估人们的偏好成本高昂。因此,我们也在测试最先进的基于 LLM 的评估方法 "LLM-as-a-judge "作为替代方法的实用性。
关于新基准的建议
如上所述,基于 LLM 的服务有多种用途,如文本生成、聊天和编码,因此对 LLM 的评估也需要考虑不同的角度。然而,准确评估这些 LLM 的能力是一项具有挑战性的任务。现有的基准主要评估回答简短问题的简单任务,而不能充分评估回答复杂交互或开放式问题的任务。
现有的基准可分为三类:第一类是核心知识基准,其中 MMLU、HellaSwag、ARC、Winogrande、HumanEval、GSM-8K 和 AGIEval 是典型的基准。它评估的是预习过的法律硕士基本知识,要求回答简短、具体的问题。
第二种是指令遵循基准,其中 Flan、Self-instruct、NaturalInstructions 和 Super-NaturalInstructions 是典型的基准。它们评估的是对更复杂的指令和任务的反应。
第三种是对话基准--CoQA、MMDialog 和 OpenAssistant 是典型的基准。这些基准可以评估人机交互性能,但不足以衡量现代聊天机器人的性能。
虽然已经发布了各种基准,但所有基准都难以评估用户偏好以及聊天机器人在人机交互中的实用性。为了应对这一挑战,我们提出了两个评估人类偏好的新基准:MT-bench 和Chatbot Arena。我们的目标是为开发更友好的聊天机器人和其他人工智能助手做出贡献。
MT-Bench
MT-Bench"旨在评估法律硕士与多种交互方式进行互动和遵从用户指令的能力,由 80 个问题组成。
它还围绕八个类别进行设计:写作、角色扮演、信息提取、推理、数学、编码、知识 I(科学与工程)和知识 II(人文与社会科学)。每个类别包含10 个专家设计的多互动问题,从多个角度评估模型的能力。下表列出了MT-Bench 示例。
聊天机器人竞技场
Chatbot Arena 是一个众包基准测试系统,它允许用户同时与两个聊天模型(模型名称隐藏)互动,并向每个模型提出相同的问题。然后,用户可以比较它们的答案,并投票决定哪个更好。模型名称将在投票后公布。下图显示了Chatbot Arena 面板。
Chatbot Arena 不局限于预先定义的问题,而是允许用户自由提出问题,进行基于真实世界使用案例的评估。该平台已运行一个月,收集了约 30,000 张选票。数据收集反映了用户的喜好。
制定基准和评估 LLM 法官的实用性
如导言所述,本文还考虑了 "LLM-as-a-Judge"(LLM-as-a-Judge),即用 LLM 代替人类偏好的性能评级,而不是人。为此,本文使用 MT-bench 和 Chatbot Arena 来研究各种 LLM 与人的评级的一致程度。
使用 MT-bench 进行的研究是一项在特定条件下进行的小规模实验,不仅调查了 LLM 与人们的评分之间的一致性,还调查了人们的评分之间的一致性:六种 LLM(GPT-4、GPT-3.5、Claude-V1、Vicuna-13B、Alpaca-13B 和 LLaMA-13B)被用于生成 80个问题的答案、LLaMA-13B)来生成 80 个问题的答案。
这些法学硕士的回答将通过法学硕士和大众的评分进行比较。人工评分主要由具有专业知识的研究生进行;法学硕士和民众对答复进行比较,共收集了约 3000 张选票;法学硕士对所有对子进行评分,而民众则对随机抽取的 20 多个问题的答复进行评分;民众对法学硕士答复中的问题进行评分,而法学硕士则对民众答复中的问题进行评分。
与 MT-bench 相比,使用Chatbot Arena进行的研究是一项规模更大的实验。Chatbot Arena 有大约 30,000 个数据点,随机抽取 3,000 张选票。评估包括八种 LLM(GPT-4、GPT-3.5、Claude、Vicuna-7B/13B、Koala-13B、Alpaca-13B、LLaMA-13B 和Dolly-12B)。通过互联网收集的 LLM 和参与者投票(2114 个唯一 IP 地址)被用于评定者。
我们还使用 "同意率"和 "平均胜率 "作为评价指标:"同意率"显示对随机选择的问题表示同意的百分比;"平均胜率"显示一个法律硕士在与另一个法律硕士的竞争中获胜的程度;"平均胜率 "显示一个法律硕士在与另一个法律硕士的竞争中获胜的程度。平均胜率"显示一个 LLM对另一个 LLM 的胜率。
评估结果
下表显示了使用 MT-bench 进行一致性分析的结果。G4-Pair "和 "G4-Single"指的是评价方法:G4-Pair 使用成对比较法对两个答案进行评价。而 G4-Single 则使用单一答案单独评估一个答案。S1 "和 "S2: "也表示环境类型;S1 包括三种类型的投票(不打成平手、打成平手和不一致),而S2只包括一种类型的投票(不打成平手)。在每种情况下,随机 LLM 之间的一致程度用 "R="表示。每个单元格的顶部显示一致程度,底部的灰色区域显示投票数。
结果表明,GPT-4 与个人评分的一致性非常高。在成对比较和单一答案中,GPT-4 的一致性在 S2 中都达到了 85%,高于人与人之间 81% 的一致性。结果还表明,GPT-4 所做的判断可能比人所做的判断更好。
下表还显示了使用 Chatbot Arena 进行匹配分析的结果。G4"表示使用 GPT-4 和成对比较进行评估的结果。G4-S "表示使用 GPT-4 和单一答案进行评估的结果。G3.5 "表示使用 GPT-3.5 进行成对比较的评估结果。C "显示的是使用 Claude 进行成对比较的评估结果。最后,"H "显示的是人工评估结果。可以看出,这也显示了与 MT-bench 相同的趋势。
在上述两表中,GPT-4 使用单一答案的结果与成对比较和人类偏好的结果显示出高度的一致性,表明 GPT-4 具有稳定的评价标准。因此,GPT-4 被认为是一种适用于人类的替代方法。
此外,我们还计算并详细分析了各种当地语言词汇对和类别之间的一致性。下图显示了法律依据之间的比较结果,以及 GPT-4 和人们对它们的评分之间的一致性。图中的每个点代表一对不同的词条,计算的是决定两个词条中哪个更好的非并列投票。换句话说,只有哪个模型获胜是显而易见的,才会被考虑在内。
X 轴(胜率差)显示两个 LLM 的胜率差,胜率差越大,表明一个 LLM比另一个LLM更好;Y 轴值(一致性)显示 GPT-4 和人类评级的一致程度。(也就是说,一致性越高,LLM 越好。一致性越高,说明 GPT-4 评级与人类判断越一致。
随着成对 LLM 之间胜率差异的增大,GPT-4 与人的一致性从 70% 提高到 100%。这表明,当 LLM 之间存在明显的性能差异时,GPT-4 与人的吻合率很高。
摘要
在评估基于大规模语言模型的人工智能助手(如 "聊天助手 "和 "聊天机器人")时,据说现有的基准无法充分评估它们在多大程度上符合人类的偏好(即它们能否产生便于人们使用的输出)。
为了克服这一挑战,本文提出了两个可以评估人们偏好的新基准:MT-bench 和 Chatbot Arena。此外,LLM-as-a-judge(LLM-as-a-judge)还可用于自动评估人们的偏好。
实验结果证实,GPT-4 等高性能 LLM 与人工评级的一致性非常高,与人工评级一样可靠。
此外,文件还公布了基准测试中使用的问题和民意调查,以及反映约 3 万人偏好的对话数据(https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)。
与本文相关的类别