[論文紹介#172]DeepSeek-V3 技術報告書

DeepSeek-V3 Technical Report

この論文は、671Bのパラメータを持つ新しいMixture-of-Experts（MoE）言語モデルDeepSeek-V3を提案し、その効率的なトレーニング手法と優れた性能を示しています。DeepSeek-V3は、671Bのパラメータを持ちながらも、各トークンに対して37Bのみをアクティブにすることで、高効率なトレーニングを実現し、コストを大幅に削減しています。

論文：https://arxiv.org/abs/2412.19437
リポジトリ：https://github.com/deepseek-ai/DeepSeek-V3

以下は、LLMを用いてこの論文の内容を要約したものになります。

1. 概要

DeepSeek-V3は、合計671Bのパラメータを持つ強力なMixture-of-Experts (MoE) 言語モデルであり、各トークンに対して37Bがアクティブになります。効率的な推論とコスト効果の高いトレーニングを実現するために、DeepSeek-V3はMulti-head Latent Attention (MLA)およびDeepSeekMoEアーキテクチャを採用しています。これらはDeepSeek-V2で徹底的に検証されています。

さらに、DeepSeek-V3は、負荷分散のための補助損失なしの戦略を先駆けて導入し、より強力なパフォーマンスのためにマルチトークン予測トレーニングの目標を設定しています。DeepSeek-V3は148兆の多様で高品質なトークンで事前トレーニングを行い、その後、監視された微調整と強化学習の段階を経て、その能力を最大限に引き出します。

包括的な評価により、DeepSeek-V3は他のオープンソースモデルを上回り、リーディングなクローズドソースモデルと同等のパフォーマンスを達成することが明らかになりました。優れたパフォーマンスにもかかわらず、DeepSeek-V3はフルトレーニングにわずか2.788MのH800 GPU時間を必要とし、トレーニング全体を通じて回復不可能なロススパイクやロールバックを経験することはありませんでした。モデルのチェックポイントは、リポジトリで利用可能です。

2. はじめに

2.1 背景と目的

DeepSeek-V3は、671Bのパラメータを持つMixture-of-Experts (MoE)モデルであり、各トークンに対して37Bのパラメータがアクティブになります。近年の大規模言語モデル（LLM）の進化を背景に、効率的な推論とコスト効果の高い学習を実現するために、Multi-head Latent Attention (MLA)およびDeepSeekMoEアーキテクチャを採用しています。また、マルチトークン予測の学習目標を設定し、トレーニング信号の密度を高めることによってデータ効率を改善しています。

3. アーキテクチャ

3.1 基本アーキテクチャ

DeepSeek-V3は、Transformerフレームワークに基づき、MLAとDeepSeekMoEを使用しています。

3.1.1 Multi-Head Latent Attention (MLA)

MLAは、注意キーと値の低ランク共同圧縮を行い、推論時のKVキャッシュを削減します。具体的には、以下の数式が用いられます：

\( c_{KV_t} = W_{DKV} h_t \)
\( k_{C_t} = W_U K c_{KV_t} \)

3.1.2 DeepSeekMoEによる負荷分散

DeepSeekMoEアーキテクチャでは、フィードフォワードネットワーク（FFN）において、共有エキスパートとルーティングエキスパートを使用します。負荷が不均一になるとルーティングが崩壊するため、Auxiliary-Loss-Freeな負荷バランス戦略を導入し、各エキスパートにバイアス項を加えることでトークンごとのエキスパート選択を行います。

3.2 マルチトークン予測

DeepSeek-V3は、次のトークンを予測するだけでなく、複数の未来のトークンを同時に予測するマルチトークン予測（MTP）を採用しています。これにより、トレーニング信号が密になり、データ効率が向上します。

4. インフラストラクチャ

4.1 コンピュートクラスター

DeepSeek-V3は、2048のNVIDIA H800 GPUを搭載したクラスターでトレーニングされます。各ノードはNVLinkおよびNVSwitchで接続され、InfiniBandを使用して異なるノード間の通信が行われます。

4.2 トレーニングフレームワーク

トレーニングはHAI-LLMフレームワークを使用し、16-wayパイプライン並列処理、64-wayエキスパート並列処理、ZeRO-1データ並列処理を実装しています。DualPipeアルゴリズムを利用し、計算と通信のオーバーラップを実現することで、トレーニングの効率を向上させています。

4.3 FP8トレーニング

FP8データフォーマットを使用した混合精度トレーニングフレームワークを導入し、低精度トレーニングの利点を活かしつつ、トレーニングの速度とメモリ使用量を削減します。

5. プレトレーニング

5.1 データ構築

DeepSeek-V3は、14.8兆の多様かつ高品質なトークンで事前トレーニングされています。数学およびプログラミングサンプルの比率を最適化し、多言語対応を強化しました。

5.2 ハイパーパラメータ

トランスフォーマーの層数は61、隠れ次元は7168に設定され、すべての学習可能なパラメータは0.006の標準偏差でランダムに初期化されています。

5.3 評価

DeepSeek-V3は、MMLUやDROPなどのベンチマークで評価され、特に数学問題やコーディングタスクにおいて最先端の性能を示しています。

6. ポストトレーニング

6.1 教師付きファインチューニング

1.5Mのインスタンスからなる指示調整データセットを作成し、各ドメインに特化したデータ生成方法を使用しています。

6.2 強化学習

ルールベースおよびモデルベースの報酬モデルを利用して、さまざまな質問に対するフィードバックを生成しています。

7. 結論および今後の方向性

DeepSeek-V3は、最強のオープンソースモデルとしての地位を確立し、経済的なトレーニングコストで高いパフォーマンスを維持しています。今後は、モデルアーキテクチャの改良、トレーニングデータの質の向上、推論能力の強化を目指す予定です。

[論文紹介#172]DeepSeek-V3 技術報告書

DeepSeek-V3 Technical Report

1. 概要

2. はじめに

2.1 背景と目的

3. アーキテクチャ

3.1 基本アーキテクチャ

3.1.1 Multi-Head Latent Attention (MLA)

3.1.2 DeepSeekMoEによる負荷分散

3.2 マルチトークン予測

4. インフラストラクチャ

4.1 コンピュートクラスター

4.2 トレーニングフレームワーク

4.3 FP8トレーニング

5. プレトレーニング

5.1 データ構築

5.2 ハイパーパラメータ

5.3 評価

6. ポストトレーニング

6.1 教師付きファインチューニング

6.2 強化学習

7. 結論および今後の方向性

昭和の子ども番組の思い出第2弾：ママとあそぼう！ピンポンパンとカータンの魅力

昭和の子ども番組の思い出：ロンパールームとうつみみどり先生

[OSS紹介#85] typescript-eslint：TypeScript開発を支える強力な静的解析ツールの魅力を解説

[OSS紹介#84] ESLint：コーディング品質を向上させるための静的解析ツール

[OSS紹介#83] Jekyll：GitHub Pagesと連携したシンプルな静的サイトジェネレーターの魅力

[論文紹介#172]DeepSeek-V3 技術報告書

DeepSeek-V3 Technical Report

1. 概要

2. はじめに

2.1 背景と目的

3. アーキテクチャ

3.1 基本アーキテクチャ

3.1.1 Multi-Head Latent Attention (MLA)

3.1.2 DeepSeekMoEによる負荷分散

3.2 マルチトークン予測

4. インフラストラクチャ

4.1 コンピュートクラスター

4.2 トレーニングフレームワーク

4.3 FP8トレーニング

5. プレトレーニング

5.1 データ構築

5.2 ハイパーパラメータ

5.3 評価

6. ポストトレーニング

6.1 教師付きファインチューニング

6.2 強化学習

7. 結論および今後の方向性

昭和の子ども番組の思い出 第2弾：ママとあそぼう！ピンポンパンとカータンの魅力

昭和の子ども番組の思い出：ロンパールームとうつみみどり先生

[OSS紹介#85] typescript-eslint：TypeScript開発を支える強力な静的解析ツールの魅力を解説

[OSS紹介#84] ESLint：コーディング品質を向上させるための静的解析ツール

[OSS紹介#83] Jekyll：GitHub Pagesと連携したシンプルな静的サイトジェネレーターの魅力

昭和の子ども番組の思い出第2弾：ママとあそぼう！ピンポンパンとカータンの魅力