![[JMMLU]及时礼貌影响法律硕士的成绩!](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/July2024/jmmlu.png)
[JMMLU]及时礼貌影响法律硕士的成绩!
三个要点
✔️ 调查提示性礼貌对 LLM 表现的影响 ✔️ 建立 JMMLU,这是一个大规模的基准,用于评估 LLM 在日语多任务中的语言理解表现 ✔️ 使用英语、汉语和日语进行的实验表明,提示性礼貌会影响 LLM 的表现。表现,但发现不同语言的影响各不相同
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance
written by Ziqi Yin, Hao Wang, Kaito Horio, Daisuke Kawahara, Satoshi Sekine
(Submitted on 22 Feb 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,大型语言模型(LLM),如 OpenAI 的 ChatGPT 和 Meta 的 LLaMA,在逻辑推理、分类和问题解答等各种任务中表现出了显著的性能,并在许多实际应用中发挥了重要作用。它们的应用范围非常广泛,包括
虽然这些对 LLM 的输入(提示)是模型处理信息并生成适当响应的重要起点,但输入方法仍有许多需要改进之处。
本文作者重点探讨了"及时礼貌 "在提高 LLM 成绩方面的作用、
- 不礼貌的提示可能会导致更强的偏差和更差的模型性能,例如信息遗漏
- 提高 LLM 成绩的最佳礼貌程度因语言而异,这可能与文化背景密切相关
我们的假设是
在此背景下,本文将 "及时礼貌 "作为提高语言学硕士学习成绩的一个因素,并介绍了 JMMLU 的构建情况(JMMLU 是评估语言学硕士在日语多任务中的语言理解成绩的大规模基准),以及及时礼貌对语言学硕士在英语、汉语和日语任务中的影响的调查情况。本文研究了在英语、汉语和日语任务中,礼貌对本地语言学者的影响。
建设联合管理和联络股
本文构建了 "日语大量多任务语言理解基准"(JMMLU),旨在评估日语学习者在多任务中的语言理解能力。
JMMLU 是通过翻译现有基准 MMLU(Hendrycks 等人,2021 年),手工添加日本教师完成的与日本文化相关的任务,并删除难以翻译或与日本文化不一致的任务的过程建立起来的。
这使得 JMMLU 成为一个包含56 项任务和7536 个问题的大型基准,如下图所示。
实验装置
为了详细分析及时礼貌对 LLM 成绩的影响,我们使用了三个任务进行了实验:总结、多任务语言理解基准和刻板偏见检测。
此外,鉴于不同的语言和文化对礼貌和尊重有不同的理解和定义,实验使用了英、中、日三种语言。
在所有三种语言中,都使用了通用的GPT-3.5-Turbo和GPT-4,以及其他特定语言模型:Llama2-70B 用于英语,ChatGLM3-6B 用于中文,Swallow-70b-instruct-hf 用于日语。使用了以下模型
在实验中,如下图所示,我们根据三种语言的"礼貌等级 "设计了八种不同的提示模板,并根据这些模板编写了任务。
实验结果
摘要
下表列出了每种语言在摘要任务中的实验结果。
实验结果表明,在英语中,无论提示语的礼貌程度如何,ROUGE-L 和 BERTScore 模型都能产生一致且稳定的分数,而生成句子的长度则与提示语的礼貌程度相关。
另一方面,GPT-4 导致生成的文本没有任何变化,即使是非常粗鲁的提示。
在中文中,GPT-3.5 和 GPT-4 能够准确翻译大多数文章的内容,这表明随着提示语的礼貌程度由高到低,其长度会逐渐缩短。
在日语中,虽然结果在某种程度上与英语和汉语的结果相似,但生成句子的长度却是独一无二的。
具体来说,随着礼貌程度从高到低的增加,生成句的长度最初会变短,但当礼貌程度增加到中等时,生成句的长度就会变长。
作者推测, 这种现象"可能是由于日语有一套礼貌用语体系,比如当服务员与顾客交谈时,即使顾客说话的语气很随意,服务员也会彬彬有礼,这就是为什么在所有模型中,当礼貌程度适中时,生成的句子都比较长"。
多任务语言理解基准测试
对于多任务中的语言理解任务,本文使用了前述的日语 JMMLU 以及现有的英语和中文基准 MMLU 和 C-Eval。
各语种的平均基准分数如下表所示。
实验结果表明,在英语中,GPT-3.5 在最高礼貌提示上取得了 60.02 的最高分,而在 GPT-4 中,得分虽有变化,但相对稳定。
与英语一样,中文的礼貌提示得分很高,但在ChatGLM3 中,礼貌等级 1 优于等级 2-5,作者认为这是由于"中文特有的细微差别"。
在日语中,礼貌等级 1 的成绩明显下降,但在其他方面,礼貌等级越低,分数越高。
特别是,燕子-70B 在第 3 级和第 6 级表现出色,作者指出:"第 3 级和第 6 级是日语试题和考试中更常用的表达方式,因此可能表现得更好"。
检测刻板偏见
下表列出了每种语言在刻板印象偏见检测任务中的实验结果。
实验结果表明,英语的 GPT-3.5 刻板印象偏差总体较高,尤其是在中等礼貌(=5 级)方面偏差最为严重。
另一方面,与英语不同的是,中文的偏差变化遵循一种恒定模式,即随着礼貌程度的降低,偏差趋于增加,尤其是当礼貌程度极低(即第 1 级)时。
在日语中,结果反映了与中文类似的模式,即GPT-3.5 偏差在礼貌等级 1 时最大。
另一方面,Swallow-70B 在礼貌等级 6 时显示出最低的偏差,作者认为"考虑到日本严格的礼貌和尊重文化以及普遍存在的性别偏见,这是一种合理的模式"。
摘要
结果如何?在本文中,我们将 "及时礼貌 "作为提高语言学硕士成绩的一个因素,构建了用于评估语言学硕士在日语多任务中的语言理解能力的大规模基准--JMMLU,并调查了及时礼貌在英语、汉语和日语任务中对语言学硕士的影响。该论文研究了在英语、汉语和日语任务中提示性礼貌对本地语言学者的影响。
本文进行的实验表明,提示性礼貌对 LLM 性能有显著影响,而且这种影响因语言和 LLM 而异。
这种现象被认为反映了人类的社会行为,在这方面,作者指出,"在开发 LLM 和收集语料库时应考虑到文化背景",这篇论文可能为今后跨文化使用 LLM 提供了重要提示。
本文所介绍的基准和实验结果的详情可在本文中找到,有兴趣者可参考�
与本文相关的类别