
结合多样性和任务专业化的 LLM 学习:TCIA 机制和实验结果
三个要点
✔️ TCIA 是一个指令扩展框架,兼具通用性和任务一致性
✔️ 将指令分解为基本查询和约束,并通过 BFS 搜索生成多样化指令
✔️ 实验表明,平均性能提高了 8.7%,性能也优于 GPT-4o
TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
written by Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
本文提出了一种以任务为中心的指令数据增强方法,称为任务中心指令增强(TCIA),用于 LLM 微调,该方法符合实际应用。
传统方法试图通过自生成指令数据增强来确保多样性,但存在重复指令和 "任务漂移 "的问题,这会导致偏离目标任务。
在现实世界中,有许多情况下需要的是专门针对特定任务的性能,而不是通用模型,因此必须有一种机制来保持任务的适用性和多样性。
TCIA 是一种将自然语言指令分解为 "基本问题 "和 "限制条件 "组合的方法,并在处理限制条件的同时广泛扩展指令。
实验表明,在会议总结等实际任务中,平均性能提高了 8.7%,在某些情况下甚至超过了 GPT-4o。
通过这种方式,TCIA 为 LLM 调整提供了一个新的框架,该框架对现实应用具有鲁棒性。
建议的方法
TCIA 是一个系统化的指令扩展框架,包括六个步骤。
首先,通过将自然语言指令分解为 "基本查询 "和 "约束",明确指令的语义结构。
接着,利用从公共数据集(如 Tulu-3)中建立的各种约束数据库,搜索与类似任务相关的约束。
随后,通过使用广度优先搜索(BFS)进行 "添加"、"删除 "和 "替换 "等迭代操作,生成一组多样化且与任务兼容的约束条件。
生成的指令会再次被转换成自然语言,并通过不一致解决方法验证是否存在缺失的约束条件和高质量的指令。
此外,通过使用多个 LLM 生成回复和 LLM 筛选(对质量、有用性、准确性、一致性等进行五维评估),只选出最佳的指令-回复对。
这样就形成了一个既忠实于任务又保持多样性的大型训练数据集,从而实现了高效、真实的微调。
实验
作者从指令和模型两个层面测试了 TCIA 的有效性。
首先,与传统方法(如 WizardLM)的比较表明,TCIA 在保持教学多样性的同时,还保持了较高的任务拟合度。
例如,经过三次扩展后,TCIA 的任务符合率几乎达到 100%,在多样性指标上优于 WizardLM。
接下来,在 Llama-3.1-8B 的基础上,对会议总结和信息提取等四个实际任务进行了微调,结果显示平均性能提高了 8.7%。
特别值得一提的是,其结果优于 GPT-4o。
此外,适应新约束条件的实验证实,在 TCIA 基础上训练的模型可以灵活应对未曾见过的要求,例如从项目符号列表改为编号列表,以及输出长度限制等。
此外,这些模型在 MMLU-Pro 和 GPQA 等公共基准测试中保持了良好的成绩,展示了特定任务和通用任务的性能。
与本文相关的类别