日本語特化の大規模言語モデルの最前線を切り拓く「RakutenAI-7B」

Large language models 2024年06月27日

3つの要点
✔️ 日本語に特化し、Mistralアーキテクチャをもとに、語彙を拡張して高精度なトークナイゼーションを実現
✔️ LM-Harnessを用いて日本語と英語のテストで他モデルを上回る性能を実証
✔️ Apache 2.0ライセンスで公開、ただし、使用時には偏見や不正確な出力への注意が必要

RakutenAI-7B: Extending Large Language Models for Japanese
written by Rakuten Group Inc., Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama
(Submitted on 21 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語処理（NLP）の分野は、最新の「事前学習、プロンプト、予測」というパラダイムによって大きく進化しています。この新しい流れは、多くの自然言語処理のタスクに対して、高性能な解決策を提供する大規模言語モデル（LLMs）の開発を加速させています。しかし、これらは英語での研究が盛んですが、日本語を含む他言語への取り組みは不十分です。そこで、このギャップを埋めるために開発されたのが、この「RakutenAI-7B」です。

RakutenAI-7Bは、日本語の理解に特化した言語モデルであり、日本語の自然言語処理の最先端と言えます。最新のMistralモデルアーキテクチャをベースにし、事前学習されたモデルの重みを効果的に再利用して、日本語の理解において他のモデルを凌駕する性能を発揮ししてます。このモデルは、英語でも競争力のあるパフォーマンスを保持しながら、OpenCalm、Elyza、Youri、Nekomata、Swallowといった同等のモデルと比較しても、日本語理解のベンチマークで最高スコアを達成しています。

RakutenAI-7Bの開発では、日本語のトークン化の精度を向上させるために、Mistralの語彙を32kから48kに拡大し、これにより、より少ないトークンでより多くの情報を表現できるようになっています。この論文の目標は、多様なアプリケーションに適用可能な、より手頃で効率的な日本語モデルを提供することとしており、このモデルはApache 2.0ライセンスで公開され、誰でも自由にアクセスして利用することができます（https://huggingface.co/Rakuten/RakutenAI-7B）。

この記事では、日本語のテキスト処理を進化させるRakutenAI-7Bの開発背景、その特徴などをご紹介します。

RakutenAI-7Bの概要

ここでは、RakutenAI-7Bの概要について紹介します。RakutenAI-7Bでは、Mistralトークナイザーを採用していますが、これが単一の日本語文字を複数のトークンに変換することがあります。この方法には、処理できる日本語テキストの量を制限し、生成に必要な計算コストを増加させるという2つの課題があります。これには、漢字の複雑性が関係しています。そこで、RakutenAI-7Bではこれを解決するために、16kの追加トークンを導入し、総トークン数を48kに拡張しています。この改善により、日本語のテキスト処理が効率化されています。

また、事前学習データの品質は、大規模言語モデルの性能向上において極めて重要です。この論文では、インターネット規模のデータセットの品質を向上させるため、データフィルタリング技術を開発しています。この技術により、約1750億トークンのフィルタリングされたデータでモデルを学習し、より関連性の高い出力を実現しています。

また、RakutenAI-7Bでは、ガイドに基づいたファインチューニングを行い、RakutenAI-7B-instructおよびRakutenAI-7B-chatを開発しています。これにより、モデルはガイドに従ってより精密に動作し、自然な会話を生成する能力が向上させています。安全性に配慮し、不適切なコンテンツの生成を抑制するための追加のチューニングも行われています。しかし、意図しない振る舞いの可能性には十分な注意が必要であり、常にモデルのパフォーマンスを監視し、倫理的及び社会的基準を遵守することが求められます。

RakutenAI-7Bの性能評価

RakutenAI-7Bの性能を評価するため、日本語版および英語版の言語モデルの評価ハーネス（LM-Harness）を用いています。これにより、モデルの真の力を公平に比較することが可能となります。評価に用いられた日本語の自然言語処理タスクは、常識問題から数学問題まで幅広く、英語の自然言語処理タスクにおいても、科学的な質問からオンラインの虚偽を見抜く能力まで、多岐に渡っています。

日本語タスクでは、JCommonSenseQAやJGLUEを用いて、モデルの常識的理解と推論能力を検証しています。また、MARC-ja（Multilingual Amazon Reviews Corpusの日本語のサブセット）やJSQuAD（Japan Stanford Question Answering Dataset）を通じて、テキスト分類や読解能力を検証しています。また、JAQKET（Japanease Questions on Knowladge of Entities）やXLSUM-ja（XLSUMの日本語のサブセット）では、オープンドメインの質問応答やニュース記事の要約能力が検証され、xWino（xWinogradの日本語のサブセット）やMGSM（Multilingual Grade School Math）では、言葉の曖昧さを解消したり、複雑な数学問題を解決する能力が検証されています。

また、英語タスクでは、ARC（AI2 Reasoning Challenge）やHellaSwag、MMLU（Massive Multitask Language Understanding）、TruthfulQAを用いて、英語におけるモデルの論理的思考、推論、そして真実性の判断能力を評価しています。

評価の手法としては、複数選択問題においては、最も可能性が高い選択肢が答えとして選ばれます。質問応答タスクでは、モデルの出力が正確に参照答えと一致するかを確認し、その精度を測ります。このプロセスは、モデルがどれだけ人間のような正確な回答を生成できるかを判定するために不可欠です。また、各タスクで使用される指標や、n-shot学習の場合のショット数も明示され、複雑度に基づく精度（acc）、正確一致メトリック（em）、そしてROUGE-2スコア（rouge-2）が評価の基準として設定されています。

この評価を通じて、RakutenAI-7Bが日本語および英語のNLPタスクにおいてどのように優れた性能を発揮するか、その実力を明らかにしています。

下表の2つは、RakutenAI-7Bの日本語と英語LM-Harnessにおける性能を示しています。RakutenAI-7Bがいかに他のモデルを凌駕しているかを示しています。RakutenAI-7Bは、日本語および英語のテストセットで他の7Bのパラメータモデルを上回る最高の成績を達成しています。特に日本語では、平均スコアが62.83と、次点のモデルを3ポイント以上引き離しています。

英語においても、平均スコア60.50を記録し、競合他社を大きく上回る結果を示しています。この一貫した高性能は、RakutenAI-7Bがさまざまなタスクに対してバランスの取れた強さを持つことを証明しています。

さらに、RakutenAI-7B-instructは、ファウンデーションモデルを基にガイドに基づいたファインチューニングを行い、さらなる性能向上を実現しています。下表の2つは、RakutenAI-7B-instructの日本語および英語LM-Harnessの性能を報告しています。

その結果、日本語と英語のLM-Harnessテストで、平均スコア68.74を達成しています。これは、最も近い競合モデルを約2ポイント上回る驚異的なスコアを示しています。RakutenAI-7B-instructは、英語の性能でも同様に最高の成績を収め、従来の公日本語モデルと比べて顕著な改善を見せています。

RakutenAI-7Bが多言語の自然言語の分野で新たなベンチマークを提供しています。特に、日本語と英語の両方において、先進的な成果を示しており、AI技術の発展におけるRakutenAI-7Bの役割が期待されています。

まとめ

RakutenAI-7Bは、先進的なデータフィルタリング技術とキュレーションに基づく体系的なモデル開発アプローチを通じて、日本語と英語向けに、高品質で整合性のある出力を実現しています。このモデルは、様々な自然言語処理タスクにおいて、一貫して優れた性能を発揮し、既存の公開されている日本語モデルを平均して上回る結果を示しています。特に、RakutenAI-7Bのトークナイザーは日本語テキストの処理に特化しており、学習と推論の速度を向上させると共にコストを削減する可能性もあります。

この論文では、研究者、開発者、そして業界のプロフェッショナルたちにRakutenAI-7Bモデルを提供することで、様々な領域でのイノベーション促進とポジティブな影響の創出を目指しています。

一方で、このモデルは、多岐にわたるトピックで人間のようなテキストを生成する能力を有していますが、全ての大規模言語モデルと同じく、偏見がある、不正確、または安全でない出力をする可能性もあるため、使用時には注意が必要です。ユーザーは、これらのモデルを安全に、そして責任を持って使用することが求められます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。