[論文紹介#172]DeepSeek-V3 技術報告書

DeepSeek-V3 Technical Report

この論文は、671Bのパラメータを持つ新しいMixture-of-Experts(MoE)言語モデルDeepSeek-V3を提案し、その効率的なトレーニング手法と優れた性能を示しています。DeepSeek-V3は、671Bのパラメータを持ちながらも、各トークンに対して37Bのみをアクティブにすることで、高効率なトレーニングを実現し、コストを大幅に削減しています。

論文:https://arxiv.org/abs/2412.19437
リポジトリ:https://github.com/deepseek-ai/DeepSeek-V3

以下は、LLMを用いてこの論文の内容を要約したものになります。

1. 概要

DeepSeek-V3は、合計671Bのパラメータを持つ強力なMixture-of-Experts (MoE) 言語モデルであり、各トークンに対して37Bがアクティブになります。効率的な推論とコスト効果の高いトレーニングを実現するために、DeepSeek-V3はMulti-head Latent Attention (MLA)およびDeepSeekMoEアーキテクチャを採用しています。これらはDeepSeek-V2で徹底的に検証されています。

さらに、DeepSeek-V3は、負荷分散のための補助損失なしの戦略を先駆けて導入し、より強力なパフォーマンスのためにマルチトークン予測トレーニングの目標を設定しています。DeepSeek-V3は148兆の多様で高品質なトークンで事前トレーニングを行い、その後、監視された微調整と強化学習の段階を経て、その能力を最大限に引き出します。

包括的な評価により、DeepSeek-V3は他のオープンソースモデルを上回り、リーディングなクローズドソースモデルと同等のパフォーマンスを達成することが明らかになりました。優れたパフォーマンスにもかかわらず、DeepSeek-V3はフルトレーニングにわずか2.788MのH800 GPU時間を必要とし、トレーニング全体を通じて回復不可能なロススパイクやロールバックを経験することはありませんでした。モデルのチェックポイントは、リポジトリで利用可能です。

2. はじめに

2.1 背景と目的

DeepSeek-V3は、671Bのパラメータを持つMixture-of-Experts (MoE)モデルであり、各トークンに対して37Bのパラメータがアクティブになります。近年の大規模言語モデル(LLM)の進化を背景に、効率的な推論とコスト効果の高い学習を実現するために、Multi-head Latent Attention (MLA)およびDeepSeekMoEアーキテクチャを採用しています。また、マルチトークン予測の学習目標を設定し、トレーニング信号の密度を高めることによってデータ効率を改善しています。

3. アーキテクチャ

3.1 基本アーキテクチャ

DeepSeek-V3は、Transformerフレームワークに基づき、MLAとDeepSeekMoEを使用しています。

3.1.1 Multi-Head Latent Attention (MLA)

MLAは、注意キーと値の低ランク共同圧縮を行い、推論時のKVキャッシュを削減します。具体的には、以下の数式が用いられます:

  • \( c_{KV_t} = W_{DKV} h_t \)
  • \( k_{C_t} = W_U K c_{KV_t} \)

3.1.2 DeepSeekMoEによる負荷分散

DeepSeekMoEアーキテクチャでは、フィードフォワードネットワーク(FFN)において、共有エキスパートとルーティングエキスパートを使用します。負荷が不均一になるとルーティングが崩壊するため、Auxiliary-Loss-Freeな負荷バランス戦略を導入し、各エキスパートにバイアス項を加えることでトークンごとのエキスパート選択を行います。

3.2 マルチトークン予測

DeepSeek-V3は、次のトークンを予測するだけでなく、複数の未来のトークンを同時に予測するマルチトークン予測(MTP)を採用しています。これにより、トレーニング信号が密になり、データ効率が向上します。

4. インフラストラクチャ

4.1 コンピュートクラスター

DeepSeek-V3は、2048のNVIDIA H800 GPUを搭載したクラスターでトレーニングされます。各ノードはNVLinkおよびNVSwitchで接続され、InfiniBandを使用して異なるノード間の通信が行われます。

4.2 トレーニングフレームワーク

トレーニングはHAI-LLMフレームワークを使用し、16-wayパイプライン並列処理、64-wayエキスパート並列処理、ZeRO-1データ並列処理を実装しています。DualPipeアルゴリズムを利用し、計算と通信のオーバーラップを実現することで、トレーニングの効率を向上させています。

4.3 FP8トレーニング

FP8データフォーマットを使用した混合精度トレーニングフレームワークを導入し、低精度トレーニングの利点を活かしつつ、トレーニングの速度とメモリ使用量を削減します。

5. プレトレーニング

5.1 データ構築

DeepSeek-V3は、14.8兆の多様かつ高品質なトークンで事前トレーニングされています。数学およびプログラミングサンプルの比率を最適化し、多言語対応を強化しました。

5.2 ハイパーパラメータ

トランスフォーマーの層数は61、隠れ次元は7168に設定され、すべての学習可能なパラメータは0.006の標準偏差でランダムに初期化されています。

5.3 評価

DeepSeek-V3は、MMLUやDROPなどのベンチマークで評価され、特に数学問題やコーディングタスクにおいて最先端の性能を示しています。

6. ポストトレーニング

6.1 教師付きファインチューニング

1.5Mのインスタンスからなる指示調整データセットを作成し、各ドメインに特化したデータ生成方法を使用しています。

6.2 強化学習

ルールベースおよびモデルベースの報酬モデルを利用して、さまざまな質問に対するフィードバックを生成しています。

7. 結論および今後の方向性

DeepSeek-V3は、最強のオープンソースモデルとしての地位を確立し、経済的なトレーニングコストで高いパフォーマンスを維持しています。今後は、モデルアーキテクチャの改良、トレーニングデータの質の向上、推論能力の強化を目指す予定です。