
模仿 "语言模型有用吗?
三个要点
✔️ 最新研究表明,模仿新开发的语言模型非常困难。研究发现,通过微调进行改进的效果不佳,而且模型的基本知识也没有太大变化。
✔️ 中小企业和大公司越来越难以获得相同的优势,尤其是那些利用新数据和算法来利用能力差异的公司或许能够建立竞争优势。
✔️ 新方法和新数据的引入非常重要,对技术限制的关注将有助于可持续发展。
The False Promise of Imitating Proprietary LLMs
written by Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song
(Submitted on 25 May 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文介绍了一种基于更强大模型的输出结果对其进行微调,从而改进廉价的弱语言模型的方法。具体来说,它试图根据一个更强大的模型(如 ChatGPT)的输出创建一个新模型,以模仿它。
本文在不同条件下创建了各种模型,并对这些模型进行了评估。最初,模仿模型似乎在遵从人类指令方面更胜一筹,但更具体的评估表明,在某些任务中,模仿模型与真正的 ChatGPT 相比还有差距。
研究人员注意到,虽然模仿模型可以模仿 ChatGPT 的风格,但在实际性能上却存在显著差异。他们还表明,模仿并不像承诺的那样有效,而且开放源代码模式和封闭模式之间存在重要的功能差异。
最后,论文得出结论:"模型模仿不是一个简单的解决方案;重要的是要开发出更好的基本模型"。论文认为,解决困难挑战而不是走捷径,是改进开源模型的最有效行动。
导言
人工智能技术的最新发展见证了 ChatGPT、Bard 和 Claude 等强大语言模型的出现,这些模型主要是由大公司作为付费 API 服务提供的。与此同时,开源语言模型也在不断发展,提供了与商业模型相同的基本功能(如 LLaMA、FLAN-T5)。研究人员正在考虑最强大的模型是开放源代码(人人可用)还是封闭源代码(限制使用)。两者各有利弊,对政策、企业战略和科学研究都有重大影响。
研究重点是模型模仿技术。该技术试图根据强模型的输出创建新模型,从而改进开源模型。然而,研究表明,虽然模仿模型在某些任务上看似更好,但实际上它们的基本功能存在显著差异,而当前的方法很难填补这些空白。
研究人员认为,加强开源模型的基本特征比模仿它们更有效。他们指出,重要的是通过使用更多样化和更高质量的训练数据来改进模型。如上所述,研究人员得出结论,模仿并不是一个简单的解决方案,更重要的是努力改进基本功能。
模式模仿
模型模仿是一种通过模仿强大的语言模型(如 ChatGPT)来训练具有同等或类似性能的新模型的技术。它的目的是将通过称为 API 的接口提供的模型作为一个黑盒子,根据其输出建立类似的模型。用户可以通过 API 向模型发送查询,但无法看到模型的训练数据或内部结构。
模型模仿的目的各不相同:学术界可能会推进新的研究项目,公司可能会开发竞争性服务,恶意用户可能会加速恶意使用。模型模仿有两种方法:"局部模仿 "和 "广泛模仿"。"局部模仿 "侧重于特定任务,而 "广泛模仿 "则是广泛模仿模型。
最近,越来越多的研究尝试在特定任务中对模型进行局部模仿,以及广泛的模型模仿。其中许多研究声称,模仿的模型近似等同于目标模型。然而,本文的目的是严格评估这些说法,并通过一系列实验来训练和验证模仿 ChatGPT 的模型的性能。
建立模仿数据集
建立模仿数据集对于模型模仿至关重要。在这项任务中可以考虑两种方法:特定任务模仿和广泛模仿。在这两种情况下,为目标模型选择正确的输入集都是关键。
为了进行特定任务模仿,我们建立了一个数据集,其中包含基于维基百科和其他来源的自然问题的知识。首先,我们从验证数据集中选取了一组 QA(问答)表,为 ChatGPT 生成相似但不同的样本。这些示例由单个交互组成,被称为 NQ 综合。
广泛模仿利用了网络上广泛存在的大量不同样本。具体来说,我们从 ShareGPT 网站、Human-ChatGPT 比较语料库(HC3)和 Discord ChatGPT 机器人中收集了示例。通过利用这些数据集,我们无需通过 API 提交查询,就能免费建立一个大型、多样化的拟态数据集。
该模拟数据集用于测试该模型模拟 ChatGPT 的性能。
结果
如上所述,本文介绍了两种构建拟态数据集的方法:以特定任务为重点的拟态和由广泛多样的输入组成的拟态。如果很难准备一个大的输入池,另一种方法是让 LM 从一个小的输入种子集生成样本。
然后使用 ShareGPT-Mix 和 NQ 合成数据集训练模型,并由人工和自动进行评估。我们研究了增加模仿数据量和改变基础 LM 功能如何改善模型的模仿效果。结果表明,对模仿模型的自动评估几乎没有改善,有时甚至表现不佳,而增加基础 LM 的大小则有所改善。
研究还发现,虽然模仿模型在学习风格方面更胜一筹,但其基于实际事实的准确性较低。群众工作评估显示,模仿模型与 ChatGPT 不相上下,甚至更好,而 NLP 基准结果显示事实性较弱。
有人指出,模仿模式的优势只是模仿目标模式的 "风格 "或 "角色",而在实际知识或功能方面几乎没有改进。另据报告,在当地培训模型更为成功。
实验结果表明,随着模拟数据量的增加,模型评级保持不变,而模型质量则随着基本模型规模的扩大而提高。
图 4 显示,随着拟态数据量的增加,自动评估效果没有改善,而当基础 LM 扩大时,自动评估效果有所改善。
表 1 显示,大面积覆盖模型并没有提高零镜头 NQ,这表明 NQ 合成模型在局部模仿中是可行的。
图 5 显示了拟态模型的低毒性,突出表明拟态模型继承了目标模型的安全性和毒性准则。
结论
最新研究表明,试图模仿新开发的语言模型(LLM)比预期的要困难得多。研究人员发现,改进现有模型的调整效果不佳,模型的基本知识也没有太大变化。
这可能会使小公司和大公司更难获得同样的优势,尤其是在大公司有望领先的情况下。不过,那些能够利用新数据和算法的进步以及利用能力差异的公司将能够建立竞争优势。
另一方面,在模仿模型时必须小心谨慎。模仿一个独特的模型是很困难的,这可能会导致预测困难和传播错误信息。
研究人员建议对模型进行调整,并使用其他训练方法和新的数据集来解决这个问题。他们还警告说,模型模仿可能会对其他领域产生影响。随着人工智能的进步变得越来越多样化,模仿方法可能需要适应这种变化。
在推进模仿方法时,引入新的方法和训练数据也很重要。关注其他领域的应用和技术限制也将有助于可持续发展。
与本文相关的类别