
由 NAVER 开发!HyperCLOVA X 是专门针对韩语的大规模语言模型
三个要点
✔️ 专注于韩国语言和文化,开发出在其他语言中表现良好的大规模语言模型HyperCLOVA X
✔️ 在韩语和英语的推理和问题解决、跨语言推理和机器翻译方面具有卓越的多语言能力
✔️ 通过安全和道德的发展、安全可信的人工智能助手,解决社会偏见和其他问题
HyperCLOVA X Technical Report
written by Kang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Karl Gylleus, Donghoon Ham, Mihak Hong, Youngki Hong, Yunki Hong, Dahyun Jang, Hyojun Jeon, Yujin Jeon, Yeji Jeong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Adrian Jungmyung Kim, Byoung Hoon Kim, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Youngkwan Kim, Donghyeon Ko, Dughyun Lee, Ha Young Lee, Jaehong Lee, Jieun Lee, Jonghyun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Yuri Min, Kiyoon Moon, Hyangnam Oh, Jaesun Park, Kyuyon Park, Younghun Park, Hanbae Seo, Seunghyun Seo, Mihyun Sim, Gyubin Son, Matt Yeo, Kyung Hoon Yeom, Wonjoon Yoo et al. (296 additional authors not shown)
(Submitted on 2 Apr 2024)
Comments: 44 pages; updated authors list and fixed author names
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
大规模语言模型(LLM)的发展主要集中在英语文本的理解和生成上。这就产生了许多功能强大的大规模语言模型,它们能娴熟地处理英语,但这些模型处理非英语语言的能力有限,尤其是韩语,因为它们主要反映的是北美文化的价值观。韩语具有独特的文化细微差别和地区特点,很难处理。
为了应对这些挑战,本文介绍了 HyperCLOVA X。它包括最强大的 HCX-L 型号和轻便的 HCX-S 型号。这些模型是根据韩语的语言和文化特点定制的,并能理解和生成包括英语在内的其他几种语言。在初始阶段,它们使用韩语、英语和编程源代码数据的等量混合进行预训练,并使用高质量的注释数据集进行指导性调整。
HyperCLOVA X 的能力已通过推理、知识、常识、事实性、编码、数学、聊天、指令遵循和无害性等基准测试得到证实。用韩语和英语进行的实验表明,HyperCLOVA X 具备韩语和韩语文化特有的知识,并展示了现有模型所不具备的强大推理能力。它还严格遵守安全准则,与其他以英语为中心的大型语言模型一样表现出色。
此外,HyperCLOVA X 还具有出色的多语言能力。它在几种亚洲语言之间的跨语言推理,以及韩语和其他主要语言之间的机器翻译方面都具有一流的性能。特别是,韩语和英语之间的跨语言转换非常有效,一种语言的指令协调有助于提高其他语言的指令跟踪能力。
报告指出,NAVER AI 公司按照道德原则开发了这一大型语言模型,重点关注安全问题。报告还指出,已经进行了评估,以利用红色团队和安全数据收集流程监控和降低产生有害或有毒内容的风险。
HyperCLOVA X 在韩语和其他语言方面的高性能为各地区和国家开发自己的语言模型提供了宝贵的指导。这一举措也将有助于实现联合国倡导的 "安全、可靠 "的人工智能系统。
本文对HyperCLOVA X 进行了非常广泛的报道,包括学习过程、主要基准评估、多语言能力展示、开发过程和安全问题以及未来发展方向。本文将介绍其中的一些研究成果。
学习方法 - 先期学习
HyperCLOVA X 是一款专门针对韩语及其文化的大型语言模型,在英语和编程代码方面表现出色,有 HCX-L(大型模型)和 HCX-S(小型模型)两个版本,最初使用韩语、英语和代码数据进行预训练。.预学习后,通过监督微调(SFT)和人工反馈强化学习(RLHF)增强其指令跟踪能力。
我们首先讨论预训练过程:HyperCLOVA X 是 HyperCLOVA 的升级版(Kim 等人,2021 年),基于变压器解码器架构(Vaswani 等人,2017 年),并做了多项改进。它采用旋转位置嵌入(Su 等人,2024 年)来增加上下文长度,并采用预规范化和分组查询关注(Ainslie 等人,2023 年)来提高学习稳定性和效率。2023).
预培训数据包括韩语、多语种(主要是英语)和代码段。多语种数据还包括日语、德语和法语。韩语数据得到了特别加强,约占总数据的三分之一。数据从各种来源收集,并对重复、低质量文件、包含仇恨言论和广告的文件以及个人信息(PII)进行过滤。此外,还对包含知识的数据进行了上采样,以提高大规模语言模型的性能。
设计有效的以韩语为中心的大规模语言模型的关键是准备好标记符号。韩语是一种聚合性语言,单词由词素组合而成。为了反映这一点,我们训练了一个支持词素的字节级 BPE(Sennrich 等人,2015 年),词库规模为 100,000 个。标记符号化器对大规模语言模型的性能和推理成本有重大影响;HyperCLOVA X 标记符号化器旨在高效标记韩语文档。
为了获得从左到右的语言生成和填充能力,我们采用了联合 PSM 和 SPM 训练(联合 PSM 和 SPM 训练)。这种方法可使大规模语言模型提高填充性能,并适用于编码助手等不同应用。90% 的训练在上下文长度为 4,096 的情况下进行,其余 10% 的训练在 32,768 的情况下进行。学习使用 bf16 精确度,并采用闪存关注和 3D 并行技术。
学习方法 - 协调学习
将预先训练好的大规模语言模型与人类的意图和价值观相匹配,对于它们作为人工智能助手的应用非常重要,HyperCLOVA X 的训练采用了两种匹配技术:SFT(监督微调)和 RLHF(带人类反馈的强化学习)。SFT(有监督的微调)和 RLHF(有人类反馈的强化学习)。
对齐学习的第一阶段是 SFT。在这一阶段,预先训练的 HyperCLOVA 被训练为对每个提示做出最佳响应;SFT 提高了模型遵循指令和解决任务(如编码和创意写作)的能力。它还能让学生利用从常识到科学和伦理等广泛学科的知识。
SFT 数据集定义了特殊标记"<<用户>>"、"<<助手>>"和"<<结束>>",以区分用户和助手的轮次。这确保了上下文中每个角色的清晰区分。在训练多轮样本时,会对助手轮次以外的文本进行损失屏蔽。
它还使用高效的批处理策略,将长度相近的序列分组,以尽量减少迷你批处理中的填充,最大限度地提高 GPU 利用率。每个迷你批次中标记的最大数量保持不变,而迷你批次的大小则由序列的平均长度决定。
下一阶段是 RLHF(带人类反馈的强化学习):后 SFT 模型可以执行许多任务,但可能会产生不准确的输出或有害内容;RLHF 根据人类的价值观(有用性、事实性、安全性)进一步调整模型。该方法利用人类偏好数据来训练奖励模型,然后利用 PPO(邻近策略优化)来训练后 SFT 模型,以最大化奖励模型返回的奖励。
奖励模型初始化为后 SFT 模型,具有随机初始化的线性头,可输出标量奖励;基于布拉德利-特里模型,该奖励模型使用排名损失进行训练,排名损失最小化选定奖励与拒绝奖励之差的负对数似然。奖励模型只在一个历时内完成训练,并对比较数据的优化步骤进行调整,以防止过度学习。
奖励模型数据集是根据不同的产品要求收集的。不同数据源之间奖励分布的差异会带来奖励黑客和学习困难的风险。为减少这种情况,在推理过程中采用了归一化和剪切方法。
临近策略优化(PPO)也用于强化学习。奖励中加入了系数为 0.04 的库尔巴克-莱伯勒(KL)惩罚项,策略网络初始化为后 SFT 模型。之前的许多研究都报告了 RLHF 后输出长度的增加,在本文中,我们也观察到了这一现象,并发现该模型倾向于较长的序列。为了避免这种情况,我们引入了一种早期停止机制,使用一组指令来限制响应的长度和格式。
众所周知,由于转换器架构的性质,大规模语言模型很容易出现重复,因此为了解决这个问题,我们将序列级似然训练(Unlikelihood Training)与 PPO 相结合,以有效减少重复的数量。减少重复次数。
PPO 阶段所需的模型数量是 SFT 阶段的四倍,每个模型在每次迭代中按顺序运行。为了优化这一过程,在多节点设置中对每个模型中的设备进行了拆分,并实施了异步处理,以减少训练时间并提高效率。
对齐学习涉及多个同步和异步阶段。为了使这些工作流程自动化,我们引入了事件驱动管道,以优化人力、计算和时间资源方面的流程。例如,中间检查点的自动评估可缩短学习时间。
它还实现了 SFT、RM 和 PPO 学习过程的自动化,减少了人工干预。培训在 NAVER 的高性能计算系统 NAVER Smart Machine Learning (NSML) 上运行。元数据在内部机器学习操作工具中安全存储和共享,并使用 MLflow 进行高效分析。
基准
为了客观评估大型语言模型的性能,人们提出了许多不同质量的基准。本节总结了 HyperCLOVA X 在核心基准上的表现。
多语言语言模型评估中的一个主要限制因素是缺乏英语之外的其他语言的综合评估框架。掌握一门特定语言不仅需要语言能力,还需要深入了解该语言使用者所特有的文化和社会细微差别。因此,本文系统地采用了广受认可的英语和韩语基准来评估 HyperCLOVA X 的双语能力和综合能力。
推理、世界知识和数学等核心能力是超越语言的,因此评估这些能力的一些基准是用英语进行的。另一方面,为了评估语言特有的问题和文化上的细微差别,基准类别是根据每种语言量身定制的。在韩语测评中,我们使用的基准都是由专家精心创建或从现有的、得到广泛认可的基准中精选出来的。这包括内部构建的综合韩语基准 KoBigBench(KBB)和来自 KMMLU(Son 等人,2024 年)的一套韩语特定问题。这确保了模型对韩语文化和社会背景的理解得到严格评估。
由于 HyperCLOVA X 在韩语和英语方面都有独特的能力,而且没有可直接比较的模型,因此我们将其与韩国特定的大型语言模型和一般基础模型进行比较,以评估其各种能力。
为了评估韩语能力,使用了专门为韩语设计的大规模语言模型和进一步训练的大规模语言模型。例如,Polyglot-Ko 是专为韩语设计的开源语言模型。SOLAR 聊天变体也是基于 LLaMA 2 架构,并在韩语数据集上进行了进一步训练;LLaMA 2 Ko 8 和 LLaMA 2 KoEn 9 也被用作韩语模型;KORani 10 是基于 Polyglot-Ko 和 LLaMA 2 KoEn 9 的开源语言模型。而 EEVE-Korean-v (Kim 等人,2024b)则是一种更高效的韩语词法扩展。
HyperCLOVA X 还与强大的通用基础架构模型进行了比较--众所周知,Falcon 和 LLaMA 2 是在多语言支持和综合能力方面具有竞争力的模型�
为了评估模型的知识和推理能力,需要提出问题并对所得到的回答进行分析。主要有两种评估方法。
一种是开放式问答法,即生成开放式答案并检查其是否与正确答案相符(如 BigBench-Hard)。另一种是封闭式答题方法,要求答题者从一组给定的候选答案中预测一个或多个答案(如 MMLU)�
开放式答案的生成相对简单,但候选人的选择需要有遵循指令的能力和在上下文中举例说明几个镜头。多选题可以重新编制为可能性测试,但容易受到提示敏感性的影响,微小的变化都可能导致分数波动。为减少这种情况并提高评估的可靠性,提示以实际的多项选择形式呈现,以符合基准的意图�
HyperCLOVA X 与其他领先的开源大规模语言模型在韩语和英语测试的广泛基准上进行了性能比较,展示了 HyperCLOVA X 系列中最大的模型。评估结果表明,在韩语综合基准测试中,HyperCLOVA X 明显优于所有其他以韩语为重点的模型。此外,在以英语为重点的基准测试中,它的表现也不亚于最大的 LLaMA 2 模型。总之,HyperCLOVA X 已被证明是一种大型语言模型,在韩语和英语的双语环境中具有出色的能力。
以下基准用于从多个角度评估韩语理解能力
- KBB
- KoBigBench 是基于 BigBench(Srivastava et al.)该基准涵盖法律、历史、数学和计算机科学等学科的知识探索任务,以及涉及常识推理和偏见的任务。
- KoBigBench 是基于 BigBench(Srivastava et al.)该基准涵盖法律、历史、数学和计算机科学等学科的知识探索任务,以及涉及常识推理和偏见的任务。
- KMMLU
- KMMLU(韩语大规模多任务语言理解能力)是为测量韩语大规模多任务语言理解能力而开发的。和文化方面。评估按照原始设置进行(5 个镜头),部分评估在内部进行。
- HAE-RAE 工作台
- HAE-RAE Bench 是为评估韩国文化和语言知识而设计的基准。它包括四个关键领域的任务:词汇、历史、常识和阅读理解。它采用零分解题模板,并遵循原始试卷设置。
- HAE-RAE Bench 是为评估韩国文化和语言知识而设计的基准。它包括四个关键领域的任务:词汇、历史、常识和阅读理解。它采用零分解题模板,并遵循原始试卷设置。
基准测试结果如下表所示。韩国特定模型和非韩国特定模型之间存在明显的性能差异。在需要深入了解社会背景的 HAE-RAE、KBB 和 KMMLU 基准方面,差异尤其大。这表明,从目标群体获取大量高质量数据对于大规模语言和特定地区语言模型的成功至关重要。
以下基准也用于评估英语理解能力。
- 大规模多任务语言理解(MMLU)
- 多功能数学单元(MMLU)(Hendrycks 等人,2020 年)是 57 个现实世界科目的基准,采用五枪例题方案,评估广泛的知识和解决问题的技能;它基于五枪例题方案,第一枪是 "现实世界 "科目,第二枪是 "现实世界 "科目。
- 硬质大班台(BBH)
- BBH 是 BIG-Bench 的一部分(Srivastava 等人,2023 年),由 23 个特别具有挑战性的任务组成。每项任务都使用三枪示例,在没有任何推理链的情况下诱发底层模型的反应。
- AGIEval
- AGIEval(Zhong 等人,2023 年)使用标准化测试(如大学入学考试和律师资格考试)对模型进行了测试;它使用了一个 0 射线示例,并使用了多选格式的英语子集。
基准测试结果如下表所示:HCX-L 与 LLaMA 2 系列中最大的模型之间的性能差异很小。平均得分也非常接近:HyperCLOVA X 通过使用中间推理步骤提高了解决问题的能力。当使用排序链(CoT)时,HCX-L 的 MMLU 分数提高了 1.87 分,达到 69.78。通过对自洽推理链采样 10 次,得分达到 70.79。相比之下,对 LLaMA 2 70b 采用 CoT 后,MMLU 分数降低了 2.62 分。
以下基准也用于评估英语常识推理和理解能力
- HellaSwag
- HellaSwag(Zellers 等人,2019 年)是评估常识能力的常用基准。它要求语言模型从多个候选选项中完成一个普通句子。在人类看来很容易的问题,对模型来说可能具有挑战性。问题采用多项选择的形式,并使用了一个五连发的例子。
- 维诺格兰德
- Winogrande Scheme Challenge(WSC)(Sakaguchi et al.这些问题专门用于评估常识推理能力。与依赖简单的单词联想的方法不同,Winogrande 需要深入的推理。基准由两部分问题组成,评估方案采用五次学习法。
- PIQA
- 物理交互问题解答(PIQA)基准(Bisk 等人,2020 年)测试物理常识推理。在这项任务中,要求模型回答有关物理世界的问题。由于缺乏训练集和验证集,评估协议采用了 0 次学习方案。
- 人工智能2推理挑战赛(ARC)
- ARC(Clark 等人,2018 年)是评估常识推理的常用基准。该数据集由小学水平的问题和答案组成,有两个子集:简单和困难。评估协议使用这两个子集,并采用前缀匹配方案将它们与基础模型进行公平比较。
- 常识质量保证(CSQA)
- CommonsenseQA(Talmor等人,2019年)是一个问题-答案数据集,它要求使用先前的常识来预测正确答案,而不是简单的单词联想。该评估协议使用一个五射示例来提供可靠的评估。
常识推理能力的结果如下表所示。Winogrande 和 CSQA 的成绩尤其值得注意。它们消除了肤浅的词语联想,需要对世界和常识有深刻的理解。另一方面,SOLAR 和 EEVE 从 Mistral(Jiang 等人,2023 年)骨干进一步训练而来,在与 HellaSwag 的物理交互中显示出常识推理的优势。
此外,还使用以下基准来评估语言模型所掌握的知识
- 自然问题(NQ)。
- 自然问题》(Kwiatkowski 等人,2019 年)是从真实搜索引擎查询中收集的开放式问题集。每个问题都有多个候选答案,如果能确定其中一个答案,则认为该问题是正确的。使用前缀匹配评估方法,可以对未在指示性数据集上训练过的基础模型进行评估,并使用了一个五次拍摄的示例。
- TriviaQA
- TriviaQA (Joshi 等人,2017 年)是一个大型阅读理解数据集,由 600 000 多个问答和证据三元组组成。最近的一项评估使用无上下文的问答对测试语言模型的知识。该基准适用于评估模型的知识能力,因为它包含了有关世界各地一系列事实的问题,使用了五射和前缀匹配,并将无指令模型作为基线。
- CLIcK
- 这一新数据集(Kim 等人,2024a)旨在评估韩语的语言和文化知识。该数据集收集了与韩国流行文化、政治和传统相关的类别,并在零点场景下对其进行评估。
- 事实分数
- Factscore (Min 等人,2023 年)评估的是生成特定实体的事实信息(如特定人物的传记)的能力;HyperCLOVA X 和其他 LLM 被用于分析英语和韩语数据集的事实性。测量韩语 Factscore 需要翻译提示语和使用韩语维基百科数据集。该数据集只包含全面的文献。
然而,基础模型和低性能的大型语言模型经常在其输出的末尾重复相同的句子。为确保内容质量,这些重复句子会被立即删除。此外,如果大型语言模型产生了无意义的单词,则会被视为未能提供适当的回应。如果模型生成了韩文维基百科标题的英文描述,则会对输出进行翻译并计算 Factscore。
下表列出了使用 NQ、TriviaQA 和 CLIcK 子集以及来自韩国维基百科数据集的 Factscore 对 HyperCLOVA X 的评估结果。HyperCLOVA X 明显缺乏西方文化知识,因为它是从英语社区收集的;KORani 和 EEVE 等韩国模型受到的影响较小,因为它们是从以英语为中心的基础模型(Mistral 和 LLaMA 2)进一步训练而来的。KORani 和 EEVE 等韩国模型受到的影响较小,因为它们是从以英语为中心的基础模型(Mistral 和 LLaMA 2)进一步训练而来的。
LLaMA 2 和多语言 LLM 在可靠描述韩国和其他亚洲人物传记方面的能力有限。相比之下,HyperCLOVA X 模型和 EEVE-Korean-v1 则显示出较高的准确传达特定实体信息的能力。这一结果表明,HCX-L 模型在韩国数据集上的事实生成能力优于其他基准模型。
使用翻译输出时,分数用星号 (*) 标出。
摘要
HyperCLOVA X 在大规模语言建模领域取得了重要进展。它特别强调韩语和韩国文化,但在英语和其他语言方面也保持了很高的能力。通过将韩语、英语和编程语言、监督微调(SFT)和人类反馈强化学习(RLHF)结合起来的平衡学习过程,XMLCLOVA X在大规模语言建模领域取得了重要进展。从人的反馈中强化学习),HyperCLOVA X 可胜任各种任务。
HyperCLOVA X 在韩语和英语推理、编码和数学问题求解等多种基准测试中都表现出很高的性能。它还具有出色的多语言能力,特别是在跨语言推理和机器翻译方面,这表明了它在不同语言环境中的多功能性和适用性。此外,它还通过安全评估和遵守道德原则,体现了对负责任的人工智能开发和部署的承诺。通过对毒性和社会偏见等伦理问题的先进处理方法,以及系统化的红色团队和安全数据收集流程,HyperCLOVA X 展示了其作为安全可靠的人工智能助手的潜力。总之,HyperCLOVA X 为双语和多语大规模语言建模设定了新标准,并展示了更具包容性和文化敏感性的人工智能技术的潜力。
论文指出,未来工作的目标是探索多模态性,扩展无缝处理和整合文本、图像和音频等不同数据类型的能力。论文还指出,其目标是探索模型量化技术的有效性,在不影响准确性或输出质量的情况下优化 HyperCLOVA X 推断。
通过积极研究外部工具和应用程序接口的集成,HyperCLOVA X 预计能够访问专业数据集和服务,这将大大提高其答案的真实性。
与本文相关的类别