最新AI論文をキャッチアップ

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の力

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の力

LLM-Paper

3つの要点
✔️ LlamaモデルのRL適性を高めるために2段階のmid-training戦略「Stable-then-Decay」を提案
✔️ 高品質な数学コーパスと長CoTデータの活用が、RL性能の向上に効果的であると示した
✔️ OctoThinkerはQwen2.5と同等のRL性能を達成し、Llamaの限界を克服する可能性を提示

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
written by Zengzhi WangFan ZhouXuefeng LiPengfei Liu
(Submitted on 25 Jun 2025)
Comments: 26 pages; The first three authors contribute to this work equally

Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

概要

本論文は、Llamaのような一般的な基盤モデルが、強化学習(RL)によって高度な推論能力を獲得する上で、どのような中間学習(mid-training)が有効であるかを明らかにした研究です。特に、Qwen系モデルとLlama系モデルにおけるRLスケーリングの挙動差に注目し、その原因を探るとともに、LlamaモデルにおいてRL性能を高めるための学習戦略を提案しています。

研究の中心は、「Stable-then-Decay」と呼ばれる2段階のmid-training戦略にあります。第一段階では安定的な学習によって強固な推論能力を育成し、第二段階では異なるタイプのデータ(短い思考過程、長い思考過程、その混合)を用いて複数の枝分かれ(ブランチ)モデルを生成します。

結果として、OctoThinkerと名付けられたこの新しいモデル群は、Qwen2.5のようなRLに親和性の高いモデルと同等の性能を達成し、Llama系列でもRLスケーリングが可能であることを示しました。さらに、MegaMath-Web-Pro-Maxという大規模な数学推論コーパスの構築と公開も行い、今後の研究の土台を築いています。

提案手法

本研究では、LlamaのようなRLに不向きとされるモデルを、RLスケーラブルな基盤モデルへと変化させるために、2段階のmid-training戦略「Stable-then-Decay」を提案しています。

第一段階である「Stable」では、200Bトークンの高品質数学データ(MegaMath-Web-Pro-Max等)を用い、一定の学習率で安定した事前学習を実施します。この段階では、モデルの基本的な推論能力と数学的知識の土台を形成します。

次に第二段階の「Decay」では、学習率を段階的に減衰させながら、異なる性質を持つデータ(例:短い連鎖思考、長い連鎖思考、その混合)を投入することにより、モデルの性質を分岐させ、多様な推論スタイルを育成します。このプロセスは、タコの複数の腕のように多方向に展開するため、「OctoThinker」と名付けられました。

また、この過程では、QA形式データやinstruction-followingデータの割合や組み合わせが細かく制御され、それぞれの影響が詳細に評価されました。さらに、RLトレーニングを安定化させるために、応答長制御スケジューラやプロンプトテンプレートの工夫も加えられています。

実験

実験では、LlamaとQwenを比較対象として、RLにおける学習挙動と性能の違いを明らかにしました。初期観察では、Qwenモデルは徐々に回答の長さを伸ばしながら安定して性能を向上させるのに対し、Llamaモデルは途中から回答が最大長(4096トークン)に達するまで繰り返しを行うなど、異常な学習挙動を示しました。

これに対処するため、著者らはLlamaに対し、上記の2段階mid-trainingを適用しました。第一段階ではMegaMath-Web-Pro-Maxを中心とした高品質データで200Bトークン分の安定学習を行い、次に短CoT・長CoT・混合型の3つのデータ構成でブランチ学習を行いました。

その後、各モデルに対して同一条件下でRLトレーニングを実施し、MATH500やGSM8K、OlympiadBench、AMC23などの14の数学的推論ベンチマークで性能を評価しました。その結果、OctoThinkerの各ブランチモデルは、元のLlamaを10〜20%上回る性能を示し、特に「Long」ブランチではQwen2.5と同等の性能にまで達しました。

このようにして、mid-training戦略がRL性能に与える影響を定量的に示すとともに、Llama系列においても高性能なRL適応が可能であることを実証しました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする