
使用 PrefBERT 进行以语义为重点的奖励设计,这是一种用于生成长句的新评估方法
三个要点
✔️ 传统的评估指标不能正确衡量长句生成的质量,而且与人类的判断存在偏差
✔️ 作者开发了一个轻量级评估模型 PrefBERT,该模型提供语义一致的奖励
✔️ 在实验中使用 PrefBERT 提高了生成质量,并在人类评估中获得了较高的评分。
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
written by Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文探讨了利用大规模语言模型生成自由长句所面临的评估和强化学习挑战。
传统的评价指标(如 ROUGE 和 BERTScore)只能衡量单词重叠和嵌入的相似性,不能充分反映句子的连贯性、信息覆盖率和适当的句子风格等面向人类的方面。因此,在模型训练中无法给出所需的奖励信号,导致在提高生成质量方面裹足不前。
因此,作者提出了一种名为 PrefBERT 的轻量级评估模型。该模型使用各种长式回答和人工五分评分进行训练,并计算出更精确、语义更一致的分数。实验表明,将这一模型纳入强化学习方法 GRPO,生成的结果与人类偏好的相关性比传统的评分量表更好。这一结果被定位为提高长文本生成质量的重要一步。
建议的方法
建议方法的核心是利用基于 BERT 的小型模型 PrefBERT 作为奖励函数。
首先,将语法和语义多样化的回复数据与基于人工质量评估的李克特量表评分相结合,构建教师数据。作为一个分句结构,参考回答和生成的回答被组合成一个句子,以[CLS]标记开始,用[SEP]分隔,从而创建一个统一的输入向量。
然后将线性回归和 sigmoid 函数应用于从汇集层获得的整句嵌入,以输出范围为 0 到 1 的归一化质量分数。该分数被用作 GRPO 的奖励信号,以优化生成模型的度量。
与传统的基于规则的奖励不同,这种方法能够捕捉语言的多层次特征,从而对长句生成中固有的连贯性和流畅性进行适当的评估。此外,由于模型体积小,它的计算效率也很高。
实验
实验在 ELI5、Alpaca 和 LongForm 三个数据集上进行。这些数据集均包含平均约 185 个单词的长回复,并包含多种文体:说明性、指令性和创造性。
基础模型 Qwen2.5 的 1.5B 和 3B 模型用于模型训练,PrefBERT、GRM-LaMA-3B、ROUGE-L 和 BERTScore 分别作为奖励函数进行比较。
评估基于 GPT-4 的 Likert 分数分配和人类评分者的相对排名。结果表明,使用 PrefBERT 的模型得分始终高于使用其他类似奖励函数的模型。特别是,它们在衡量句子结构清晰度和信息丰富度方面表现出色,证实了它们控制过度冗余生成的能力。
这些结果证明了语义感知奖励设计的有效性。
与本文相关的类别