
RakutenAI-7B 是专门针对日语的大规模语言建模的先锋
三个要点
✔️ 专门用于日语,基于 Mistral 架构,具有扩展词汇和高度准确的标记化。
✔️ 在使用 LM-Harness 进行的日语和英语测试中,表现出比其他模型更好的性能。
✔️ 根据 Apache 2.0 许可发布,但在使用时应注意避免出现偏差和不准确的输出。
RakutenAI-7B: Extending Large Language Models for Japanese
written by Rakuten Group Inc., Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama
(Submitted on 21 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
随着最新的 "预学习、提示和预测 "模式的出现,自然语言处理(NLP)领域有了长足的发展。这一新趋势加速了大规模语言模型(LLM)的发展,为许多自然语言处理任务提供了高性能的解决方案。然而,虽然这些模型在英语领域得到了广泛的研究,但在包括日语在内的其他语言领域却缺乏研究。因此,我们开发了 RakutenAI-7B 来填补这一空白。
RakutenAI-7B 是一种专门用于日语理解的语言模型,是日语自然语言处理领域的最先进技术。它基于最新的 Mistral 模型架构,有效地重复使用了预先训练的模型权重,在日语理解方面优于其他模型。与 OpenCalm、Elyza、Youri、Nekomata 和 Swallow 等同类模型相比,该模型在日语理解基准测试中获得了最高分,同时在英语方面也保持了竞争力。
在 RakutenAI-7B 的开发过程中,为了提高日语标记化的准确性,Mistral 词库从 32k 扩展到 48k,从而可以用更少的标记来表示更多的信息。本文的目标是提供一个更经济、更高效的日语模型,可广泛应用于各种应用,该模型根据 Apache 2.0 许可发布,任何人都可以免费访问和使用 (https://huggingface.co/Rakuten/RakutenAI-7B)。
本文介绍了推进日语文本处理的RakutenAI-7B 的开发背景及其特点。
RakutenAI-7B 概览
本节概述了乐天AI-7B,它采用了 Mistral 标记符号转换器,可将单个日语字符转换成多个标记符号。这种方法有两个挑战:一是限制了可处理的日语文本数量,二是增加了生成的计算成本。这与汉字的复杂性有关。因此,RakutenAI-7B 通过引入 16k 个额外标记来解决这一问题,将标记总数扩展到 48k。这一改进提高了日语文本处理的效率�
预训练数据的质量对于提高大规模语言模型的性能也至关重要。本文开发了一种数据过滤技术,以提高互联网规模数据集的质量。该技术可在大约 1,750 亿个词库的过滤数据上训练模型,从而获得更相关的输出结果。
RakutenAI-7B 还通过基于指南的微调开发了 RakutenAI-7B-instruct 和 RakutenAI-7B-chat。这使得模型能够更精确地遵循指南,并提高了它们生成自然对话的能力。此外,还进行了额外的调整,以确保安全并控制不当内容的生成。不过,必须充分注意可能出现的意外行为,而且必须对模型的性能进行持续监控,以确保符合道德和社会标准。
RakutenAI-7B 的性能评估
为了评估 RakutenAI-7B 的性能,对日语和英语版本的语言模型使用了评估线束(LM-Harness)。这样就能对模型的真实能力进行公平的比较。评估中使用的日语自然语言处理任务包括常识问题和数学问题,而英语自然语言处理任务也包括科学问题和识别在线虚假信息的能力。
在日语任务中,我们使用 JCommonSenseQA 和 JGLUE 来验证对模型的常识性理解和推理能力。我们还通过MARC-ja(多语种亚马逊评论语料库的日语子集)和 JSQuAD(日本斯坦福问题解答数据集)来验证文本分类和阅读理解能力。此外,还通过JAQKET(日本实体知识问题)和 XLSUM-ja(XLSUM 的日语子集)验证了开放领域问题解答和新闻文章总结技能,而 xWino(xWinograd 的日语子集)和 MGSM(多语言亚马逊评论语料库的日语子集)则验证了开放领域问题解答和新闻文章总结技能。子集)和 MGSM(多语种小学数学)已经验证了它们解决语言歧义和复杂数学问题的能力。
英语任务还使用ARC(AI2 推理挑战)、HellaSwag、MMLU(大规模多任务语言理解)和 TruthfulQA 来评估模型的逻辑思维、推理和判断真实性的能力。评估他们判断真实性的能力。
就评价方法而言,在多选题中,最有可能的选项会被选为答案。在答题任务中,模型输出的准确性是通过检查其是否与参考答案完全匹配来衡量的。这一过程对于确定模型生成类似人类答案的准确度至关重要。此外,还规定了每项任务所使用的度量标准,以及在 n 次训练的情况下的拍摄次数,并将基于复杂度的准确度(acc)、精确匹配度量(em)和 ROUGE-2 分数(rouge-2)作为评估标准。
通过这次评估,我们展示了 RakutenAI-7B 在日语和英语 NLP 任务中的表现。
以下两个表格显示了乐天AI-7B 在日语和英语 LM-Harness 中的表现,说明了乐天AI-7B 如何优于其他模型。在日语和英语测试集上,RakutenAI-7B 的得分最高,超过了其他 7B 参数模型。特别是在日语测试中,平均得分 62.83,比次好模型高出 3 分多。
在英语方面,它也远远超过了竞争对手,平均得分达到 60.50。这种持续的高性能显示了 RakutenAI-7B 在各种任务中的均衡优势。
此外,RakutenAI-7B-instruct 还根据基础模型进行了基于指南的微调,以进一步提高性能。以下两个表格分别报告了 RakutenAI-7B-instruct 在日语和英语 LM-Harness 中的表现。
因此,它在日语和英语的 LM-Harness 测试中取得了 68.74 的平均分。RakutenAI-7B-instruct 同样在英语测试中名列前茅,与之前的公开日语测试机型相比有了显著提高。
RakutenAI-7B 在多语言自然语言领域提供了新的基准。特别是,它在日语和英语方面都取得了先进成果,RakutenAI-7B 在人工智能技术发展中的作用令人期待。
摘要
通过先进的数据过滤技术和基于策划的系统模型开发方法,RakutenAI-7B 为日语和英语提供了高质量、一致的输出。这些模型在一系列自然语言处理任务中始终表现出色,平均表现优于现有已发布的日语模型。特别是,RakutenAI-7B 的标记符号化器是专门为处理日语文本而设计的,它提高了学习和推理速度,并有可能降低成本。
本文旨在为研究人员、开发人员和行业专业人士提供 RakutenAI-7B 模型,以促进创新并在各个领域产生积极影响。
另一方面,这些模型有能力就各种主题生成类似人类的文本,但与所有大规模语言模型一样,它们也可能产生有偏见、不准确或不安全的输出,因此在使用时必须小心谨慎。希望用户能够安全、负责任地使用这些模型。
与本文相关的类别