青草无码av青青草成人电影,中国国产黄色特级1级片,A片免费观看三区

DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都屬于MoE（混合專家）架構(gòu)，并在開源世界產(chǎn)生了較大的影響力。特別是2025 年 1 月開源的DeepSeek-R1，模型性能可挑戰(zhàn)OpenAI閉源的 o1 模型。

隨著熱度的提升，DeepSeek也被大模型行業(yè)之外的各路媒體不斷提起，“打破CUDA壟斷”，“挖了NVLink的墻角”，“引發(fā)英偉達市值大跌”，“證明大模型算力建設(shè)浪費”，“算力霸權(quán)轉(zhuǎn)移”，“國運級的創(chuàng)新”，似乎有用皮衣卡住老黃脖子的架勢。

那么，從技術(shù)和架構(gòu)的角度深入最新的V3和R1模型，是否真的有“國運級的創(chuàng)新”，又有哪些誤傳？

下面我們從V3與R1的架構(gòu)分析開始，分層解讀DeepSeek的創(chuàng)新。

1 V3與R1的主要特征

DeepSeek-R1的模型架構(gòu)來自于V3，甚至可以說R1是具有推理（Reasoning）能力的V3。下面先分別分析V3和R1的架構(gòu)特征。

1.1 V3/R1架構(gòu)特征

DeepSeek-V3是一個混合專家 (MoE)語言模型，具有 6710 億(671B)參數(shù)，其中每個Token（詞元）的計算約激活 370 億（37B）參數(shù)。這個模型參數(shù)量與GPT-4大致在同一數(shù)量級。

?MoE（Mixture of Experts）是組合多個專家模型提升深度學(xué)習(xí)模型性能和效率的架構(gòu)。?其核心思想是通過引入多個專家模型（Experts），每個輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型進行處理，從而減少計算量，提高訓(xùn)練和推理速度。?MoE的概念在1991年就已提出，訓(xùn)練不容易收斂是其在大模型領(lǐng)域應(yīng)用的主要障礙。

MoE模型基本結(jié)構(gòu)示意（來源：網(wǎng)絡(luò)）

DeepSeek-V3 采用了多頭潛注意力 (MLA，對傳統(tǒng)多頭注意力機制的改進) 和DeepSeekMoE架構(gòu)（對傳統(tǒng)MoE架構(gòu)的改進），無輔助損失的負載平衡策略等創(chuàng)新技術(shù)，基于 14.8 萬億Token的數(shù)據(jù)進行訓(xùn)練，在代碼生成、分析等任務(wù)中表現(xiàn)出色。

其中多頭潛注意力 (MLA) 機制和DeepSeekMoE是V3和R1模型提高計算效率，減少算力浪費的關(guān)鍵。其中MLA大概貢獻了2-4倍的計算效率提升，MoE大概貢獻了4倍以上的計算效率提升。

1）MLA（Multi-Head Latent Attention）

在“All you need is attention”的背景下，傳統(tǒng)的多頭注意力（MHA，Multi-Head Attention）的鍵值（KV）緩存機制事實上對計算效率形成了較大阻礙。縮小KV緩存（KV Cache）大小，并提高性能，在之前的模型架構(gòu)中并未很好的解決。DeepSeek引入了MLA，一種通過低秩鍵值聯(lián)合壓縮的注意力機制，在顯著減小KV緩存的同時提高計算效率。低秩近似是快速矩陣計算的常用方法，在MLA之前很少用于大模型計算。在這里我們可以看到DeepSeek團隊的量化金融基因在發(fā)揮關(guān)鍵作用。當然實現(xiàn)潛空間表征不止低秩近似一條路，預(yù)計后面會有更精準高效的方法。

從大模型架構(gòu)的演進情況來看，Prefill和KV Cache容量瓶頸的問題正一步步被新的模型架構(gòu)攻克，巨大的KV Cache正逐漸成為歷史。（事實上在2024年6月發(fā)布DeepSeek-V2的時候就已經(jīng)很好的降低了KV Cache的大?。?/p>

2）DeepSeekMoE

為了讓1991年就提出的MoE架構(gòu)更好的融入大模型體系，克服傳統(tǒng)MoE模型的訓(xùn)練難題。DeepSeek采用了細粒度專家+通才專家的思路，不再使用少數(shù)大專家的結(jié)構(gòu)，而是使用大量極小的專家結(jié)構(gòu)。這個思路的本質(zhì)在于將知識空間進行離散細化，以更好的逼近連續(xù)的多維知識空間，是一個非常好的方法。

無輔助損失的負載平衡策略可在不依賴輔助損失函數(shù)的情況下平衡分配計算/訓(xùn)練負載，更好的提高訓(xùn)練穩(wěn)定性。

基于以上關(guān)鍵的改進，V3實現(xiàn)了更高的訓(xùn)練效率，比性能類似的Llama3.1 405B 少了大約 10 倍的訓(xùn)練計算量。

1.2 R1在CoT的進化

廣義上的DeepSeek-R1 不是一個單一的模型，還包括了R1的初始階段模型DeepSeek-R1-Zero，以及幾個基于R1蒸餾的較小的大模型。在這里我們主要討論R1-Zero和R1。

1.2.1 DeepSeek-R1-Zero

DeepSeek-R1-Zero最大的特點在于，該模型僅使用強化學(xué)習(xí)進行的訓(xùn)練，通過各種思維鏈（CoT，Chain of Thought）數(shù)據(jù)特別是Long CoT數(shù)據(jù)來激活模型的推理能力。

DeepSeek-R1-Zero 是一個獨特的通過大規(guī)模強化學(xué)習(xí) (RL，Reinforcement Learning) 訓(xùn)練的模型，無需有監(jiān)督微調(diào) (SFT，Supervised Fine-Tuning) ，具備較強的推理（Reasoning）能力。

?首先要區(qū)分兩個容易混淆的概念：Reasoning（推理）?：通過對事實的考慮和分析來得出結(jié)論的過程。推理強調(diào)的是思考和決策的過程，比“推斷”具有更多的邏輯和分析過程。 ??Inference?（推斷）：基于已有信息或數(shù)據(jù)推導(dǎo)出新的信息或結(jié)論的過程。推斷側(cè)重于通過既定的算法或模型來實現(xiàn)，與“推理”相比，更強調(diào)形式化和計算過程。?

R1-Zero展示出自我驗證、反思和長鏈思維推理能力，甚至在推理方面得分略微超過R1。雖然R1-Zero有一些明顯的局限性，特別是在輸出可讀性和語言一致性方面，仍需要解決可讀性差和語言混合等問題。

這大概是第一個公開驗證大模型的推理（Reasoning）能力可以僅通過強化學(xué)習(xí)來完成訓(xùn)練。在我們看來，R1-Zero的價值遠超R1。按照NLP領(lǐng)域?qū)φZ言的理解，人類的自然語言并不是最完美的推理語言。在R1-Zero的進一步進化過程中，或許可以構(gòu)建出更適合推理的混合語言IR，建立更高效的推演體系。

1.2.2 DeepSeek-R1

相比之下，DeepSeek-R1采用了多階段訓(xùn)練方法，加入了SFT，而不是采用純粹的強化學(xué)習(xí)，R1從一小組精心挑選的示例數(shù)據(jù)（稱為“冷啟動數(shù)據(jù)”）進行有監(jiān)督微調(diào)（SFT），再進入強化學(xué)習(xí)。這種方法改善了 DeepSeek-R1-Zero 的語言可讀性和連貫性，同時在推理之外的測試中實現(xiàn)了更好的性能。

DeepSeek-V3整體架構(gòu)（來源：DeepSeek）

2 V3/R1的架構(gòu)提升

2.1 多頭潛注意力 (MLA)

2.1.1 從KV Cache（KV緩存）說起

當使用傳統(tǒng)Transformer在推斷（Inference）過程中計算并生成 Token（詞元）時，模型需要讀入所有過去 Token 的上下文，以決定接下來輸出什么Token。最直觀的方法就是簡單的再次進行一次包括所有過去 Token 的前向傳播（計算）。

KV Cache（來源：互聯(lián)網(wǎng)）

傳統(tǒng)的基于 Transformer 的模型在推理過程中會計算每個鍵值 (KV) 對，但事實上這種方法效率并不高，因為大部分過去的 Token 已經(jīng)在上一次計算中處理過了，重復(fù)計算會產(chǎn)生大量的浪費。

目前常用的方法是緩存所有過去 Token 的相關(guān)內(nèi)部狀態(tài)，主要是注意力機制中的鍵（Key）和值（Value）向量。這也是鍵值緩存（簡稱 KV 緩存）名稱的由來。

不同注意力機制的對比（來源：DeepSeek V2）

目前開源大模型中的主流方法是分組查詢注意力（Grouped-Query Attention）機制。在這種機制中，為每對鍵和值頭分配多個查詢頭，將查詢頭有效的分組在一起。在 Llama 3.3 70B 和 Mistral Large 2 等模型中，僅分組查詢注意力機制就將 KV 緩存大小減少了大約一個數(shù)量級。

2.1.2 MLA的原理與優(yōu)勢

DeepSeek使用的Multi-Head Latent Attention技術(shù)可大大節(jié)省KV緩存，從而顯著降低了計算成本。

MLA的本質(zhì)是對KV的有損壓縮，提高存儲信息密度的同時盡可能保留關(guān)鍵細節(jié)。該技術(shù)首次在 DeepSeek-V2 中引入，與分組查詢和多查詢注意力等方法相比，MLA是目前開源模型里顯著減小 KV 緩存大小的最佳方法。

MLA的方法是將KV矩陣轉(zhuǎn)換為低秩形式：將原矩陣表示為兩個較小矩陣（相當于潛向量）的乘積，在推斷過程中，僅緩存潛向量，而不緩存完整的鍵KV。這規(guī)避了分組查詢注意力和多查詢注意力的查詢的信息損失，從而在降低KV緩存的前提下獲得更好的性能。

矩陣的低秩近似（來源：互聯(lián)網(wǎng)）

另外為了與MLA技術(shù)的低秩KV壓縮兼容，DeepSeek也將編碼方式RoPE進行了改進，使V2/V3/R1獲得了長上下文的外延能力。

MLA方法有效降低KV Cache和訓(xùn)練成本（來源：DeepSeek）

2.1.4 MLA是顛覆性創(chuàng)新嗎？

我們認為MLA是個非常有趣且先進的創(chuàng)新，這一工作建立在對注意力機制深度理解的之上，并且需要進行大膽謹慎的驗證。限于算力條件和個人ROI，能夠獨立完成這一創(chuàng)新的團隊并不多。能做出MLA這樣的工作，確實是達到國際一線架構(gòu)水平了。換一個角度看，MLA也是建立在DeepSeek團隊的量化金融基因之上，不禁讓我們聯(lián)想到優(yōu)秀的量化碼農(nóng)對每個矩陣計算的FPGA底層優(yōu)化。

MLA之外的KV Cache優(yōu)化方法（來源：武漢大學(xué)）

我們認為，MLA之后，應(yīng)該還會有QMLA（量化MLA）或者CMLA（壓縮MLA），甚至是超越現(xiàn)有Attention模式的技術(shù)出現(xiàn)，而用了很多年的Transformer也將經(jīng)歷大的變革。真正的顛覆創(chuàng)新可能，正擺在DeepSeek和國內(nèi)其他大模型團隊的面前。

2.2 MoE架構(gòu)與輔助無損負載均衡

2.2.1 MoE與Dense模型的混戰(zhàn)

目前的主流的大模型架構(gòu)可以分為Dense（稠密）架構(gòu)和MoE架構(gòu)。

?Dense模型?在深度學(xué)習(xí)中通常指的是一種全部神經(jīng)元都參與計算的網(wǎng)絡(luò)結(jié)構(gòu)。這種結(jié)構(gòu)使得模型能夠充分利用數(shù)據(jù)特征，并且訓(xùn)練過程中參數(shù)共享，減少了計算量和過擬合的風(fēng)險。

一般來說，Dense模型可以視為僅有一個專家的MoE模型。在大模型領(lǐng)域，Dense模型和MoE各有各的應(yīng)用場景和優(yōu)勢，MoE還無法代替Dense模型的行業(yè)應(yīng)用。

	Dense模型	MoE模型
優(yōu)勢	在專業(yè)領(lǐng)域計算參數(shù)量更少，更節(jié)省計算資源	在通用計算領(lǐng)域激活的參數(shù)少，更節(jié)省計算資源
劣勢	在通用領(lǐng)域需要激活更多的參數(shù)，計算資源消耗大	在專業(yè)領(lǐng)域無需多位專家，容易產(chǎn)生大量參數(shù)冗余，浪費資源

相比Dense模型，MoE主要增加了專家路由，通過門控（開或關(guān)）的方法，負責(zé)將數(shù)據(jù)流引向不同的專家模塊。專家路由事實上引入了一個不連續(xù)的門控函數(shù)（對梯度計算不友好），這導(dǎo)致梯度下降優(yōu)化方法在 MoE 訓(xùn)練中表現(xiàn)不佳，甚至出現(xiàn)“路由崩潰”，即模型容易陷入始終為每個 Token 激活相同的少數(shù)專家的窘境，而不是將計算合理的傳播到所有的可用專家。這也是MoE模型訓(xùn)練的難點。

2.2.2 無輔助損耗負載均衡

傳統(tǒng)的規(guī)避路由崩潰的方法是強制“平衡路由”，即通過訓(xùn)練策略讓每個專家在足夠大的訓(xùn)練批次中被激活的次數(shù)大致相等。這一策略也就是“輔助損失”。但這種強制性的輔助損失會由于訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)不均衡特征，導(dǎo)致同領(lǐng)域的專家能力分散到不同的專家模塊之中，極度損害MoE模型的性能。理想的 MoE 應(yīng)該有一些經(jīng)常訪問高頻通用信息，并具備其他訪問較少的專業(yè)領(lǐng)域?qū)＜?。如果強制平衡路由，將失去實現(xiàn)此類路由設(shè)置的能力，并且必須在不同的專家之間冗余地復(fù)制信息。

DeekSeek采用了“增加共享專家+無輔助損耗負載平衡”的方法解決這一問題。

DeepSeek將專家分為兩類：共享專家和路由專家。共享專家始終會被路由，在訓(xùn)練中重點確保路由專家的路由均衡。

DeepSeekMoE與傳統(tǒng)的多路由和細粒度專家MoE對比（來源：DeepSeek）

無輔助損耗負載均衡（Auxiliary-Loss-Free Load Balancing）方法是將特定于專家的偏差項添加到路由機制和專家親和力中。偏差項不會通過梯度下降進行更新，而是在整個訓(xùn)練過程中持續(xù)監(jiān)控并進行調(diào)整以確保負載平衡。如果訓(xùn)練中某個專家沒有獲得合理的命中次數(shù)，可以在每個梯度步驟中微調(diào)偏差項增加命中概率。

通過動態(tài)調(diào)整，DeepSeek-V3 在訓(xùn)練過程中獲得了比有輔助損失均衡模型更好的性能。

從模型架構(gòu)分析看，我們認為這種分配策略可能還不是理論最優(yōu)的，但該方法已經(jīng)比強制輔助損失有了顯著的改進。

2.2.3 MoE會是大模型的終局嗎？

MoE架構(gòu)自1991年提出后，就一直在與Dense架構(gòu)共生發(fā)展。

DeepSeek R1的推出確實大大推動了開源MoE大模型的發(fā)展，并為MoE的落地應(yīng)用提供了更多可能。但是我們也應(yīng)看到，MoE模型與應(yīng)用領(lǐng)域高度和TOC（Total Owning Cost，總擁有成本）密切相關(guān)，很多場景MoE未必比Dense模型好。

不同的MoE架構(gòu)（來源：香港科技大學(xué)）

另外，MoE模型也有不同的細分架構(gòu)類型。不是所有的MoE的參數(shù)量都遠大于計算帶寬要求。

MoE架構(gòu)的本質(zhì)是模型參數(shù)分布式存儲，MoE減少計算量的代價可能是不同專家模型的參數(shù)重復(fù)和總參數(shù)量增加，這往往也意味著更大更貴的HBM成本。外界傳言的MoE模型可以更小，其實是指的MoE模型蒸餾的Dense模型可以兼顧參數(shù)量和推理（Reasoning）性能。

不同應(yīng)用場景對Dense和MoE模型的需求

	To B計算場景	To C云計算場景	To C邊緣/端側(cè)計算場景
特點	專業(yè)領(lǐng)域應(yīng)用多，對RAG高度依賴，不需要多專家	通用領(lǐng)域多，對檢索和訓(xùn)練數(shù)據(jù)更新時間敏感，需要多專家	通用領(lǐng)域多，可不需要高性能/精度回答，不需要多專家
主力架構(gòu)	行業(yè)大模型，主要是Dense架構(gòu)	通用基礎(chǔ)模型，主要是MoE或MoA架構(gòu)	限于成本，主要是Dense架構(gòu)
占有率	較高	較低	目前較低

按照上表的分析，基于成本考慮，目前只有To C云計算場景（類似OpenAI的網(wǎng)頁版服務(wù)）才會真正用上MoE這種多專家的模型架構(gòu)。

3 V3/R1訓(xùn)練架構(gòu)的獨特優(yōu)勢

DeepSeek 的優(yōu)勢不僅僅來自于其模型架構(gòu)。從低比特FP8訓(xùn)練到All-to-All通信優(yōu)化，其專用訓(xùn)練框架旨在盡可能提高訓(xùn)練的速度，以最高效率在解空間中找到較優(yōu)的MoE參數(shù)集。

國內(nèi)很多人在看DeepSeek團隊時，更多關(guān)注了他們做Training的能力，但實際上DeekSeek的AI Infra能力，特別時軟硬件協(xié)同優(yōu)化能力，才是他們超越國內(nèi)其他大模型團隊的關(guān)鍵。

這一架構(gòu)的核心優(yōu)勢包括：

1）引入了FP8混合精度訓(xùn)練框架，并首次在超大規(guī)模大模型訓(xùn)練上驗證了這一框架的有效性。通過對FP8低比特計算和存儲的支持，實現(xiàn)了訓(xùn)練的加速和GPU內(nèi)存使用的減少。

2）設(shè)計了DualPipe算法來實現(xiàn)更高效的流水線并行，并通過計算-通信重疊隱藏了大模型訓(xùn)練過程中的大部分通信開銷。

3）開發(fā)了高效的跨節(jié)點All-to-All通信內(nèi)核，以充分利用InfiniBand（IB）和NVLink帶寬；對顯存使用進行了優(yōu)化，無需使用昂貴的張量并行即可訓(xùn)練DeepSeek-V3。

3.1 HAI-LLM框架的軟硬件協(xié)同設(shè)計

V3 的訓(xùn)練基于DeepSeek自研的HAI-LLM 框架。HAI-LLM是一個高效、輕量級的訓(xùn)練框架，其設(shè)計充分考慮了多種并行策略，包括DP、PP、TP、EP和FSDP的并行模式。

并行模式對比（來源：互聯(lián)網(wǎng)）

3.1.1 軟件層面的并行優(yōu)化

HAI-LLM框架在軟件層面所作的并行改進和效率提升如下表所示：

HAI-LLM框架所作的并行改進（來源：中存算）

縮寫	簡介	DeepSeek所做的工作或優(yōu)化
TP	張量并行（Tensor Parallelism）：將模型層放置在并行執(zhí)行計算的多個設(shè)備（計算芯片）上，包括逐行和逐列并行，	將NVLink Bridge集成到系統(tǒng)中，在每對 GPU之間建立了 600GB/s 的帶寬，增加TP效率
PP	流水線并行（Pipeline Parallelism）：每個設(shè)備（計算芯片）都包含一部分模型層，每個訓(xùn)練批次分為串行的小批次以進行流水線執(zhí)行	通過配置數(shù)據(jù)并行排隊，規(guī)避單個節(jié)點（服務(wù)器）8個GPU共享一個 IB NIC流水線并行（PP）期間出現(xiàn)的網(wǎng)絡(luò)帶寬競爭，實現(xiàn)GPU的交替通信和91%的并行效率
FSDP	全共享數(shù)據(jù)并行（Fully Sharded Data Parallel）基于 ZeRO Stage 3 算法，對模型的參數(shù)、優(yōu)化器狀態(tài)和梯度分布到不同的設(shè)備（計算芯片）上。在正向傳播期間，F(xiàn)SDP 執(zhí)行allgather作來組裝完整的參數(shù)，并正向傳播完成后釋放；反向傳播期間，F(xiàn)SDP 執(zhí)行 allgather獲取完整參數(shù)，并進行反向梯度計算，然后執(zhí)行reduce-scatter以同步所有設(shè)備之間的梯度，每個設(shè)備只保留部分梯度、參數(shù)和優(yōu)化器更新	基于 ZeRO Stage-3 算法實現(xiàn)FSDP。將 allgather 和 reduce-scatter 通信與前向和反向傳播計算重疊，拆分反向傳播步驟以增強重疊，減少通信量。與PyTorch的 FSDP 相比，HAI-LLM 的 FSDP 將訓(xùn)練時間縮短了近一半
DP	數(shù)據(jù)并行（Data Parallelism）：模型和優(yōu)化器的狀態(tài)在多個設(shè)備（計算芯片）之間復(fù)制，數(shù)據(jù)均勻分布給所有設(shè)備進行并行計算	對PCIe進行工程優(yōu)化，提升DP
EP	專家并行（Expert Parallelism）：在MoE 訓(xùn)練期間，MoE 模型的不同專家分布在不同的設(shè)備（計算芯片）上，由門控單元將輸入的Token分配給不同的專家	對PCIe進行工程優(yōu)化，提升EP

根據(jù)DeepSeek的論文，V3 應(yīng)用了 16 路流水線并行（PP）、跨越 8 個（服務(wù)器）節(jié)點的 64 路專家并行（EP）和 ZeRO-1 數(shù)據(jù)并行（DP）。

3.1.2 針對軟件并行策略的硬件優(yōu)化

低成本的萬卡集群架構(gòu)（來源：DeepSeek）

為了配合HAI-LLM訓(xùn)練框架（軟件），DeepSeek采用兩層Fat-Tree拓撲+ InfiniBand （IB）作為集群架構(gòu)（硬件）。這一集群架構(gòu)的核心思路是減少互連層次，降低訓(xùn)練的綜合成本。相對DGX-A100 的標準萬卡集群三層Fat-Tree的1320個交換機，DeepSeek的同規(guī)模集群僅僅需要122臺交換機，至少節(jié)省了40%的互連成本。

3.1.3 針對硬件架構(gòu)的軟件優(yōu)化

針對硬件架構(gòu)優(yōu)化的HFReduce（來源：DeepSeek）

針對所采用的硬件架構(gòu)特點，DeekSeek開發(fā)了HFReduce（針對不使用NVLink的方案），以執(zhí)行高效的 allreduce操作。 HFReduce會首先執(zhí)行節(jié)點內(nèi) reduce，然后通過 CPU 執(zhí)行節(jié)點間 allreduce，最后將 reduced 數(shù)據(jù)傳輸?shù)?GPU 。這樣的優(yōu)化需要DeepSeek團隊對硬件互連有非常深刻的理解。

當然DeepSeek團隊也開發(fā)了基于NVLink的HFReduce with NVLink，在將梯度傳遞給 CPU 之前，先在NVLink 互連的GPU 之間執(zhí)reduce減作；當 CPU 返回結(jié)果時，會將數(shù)據(jù)切分并分別返回給 NVLink 連接的配對 GPU，再通過 NVLink 執(zhí)行allgather。

3.2 FP8 訓(xùn)練框架體系

3.2.1 低比特訓(xùn)練框架的構(gòu)建

FP8與其他數(shù)據(jù)格式占據(jù)空間對比（來源：互聯(lián)網(wǎng)）

通常的大模型訓(xùn)練會采用BF16（16位浮點）或FP32/TF32（32位浮點）精度作為數(shù)據(jù)計算和存儲的格式，來確保較高的訓(xùn)練精度。相比之下，F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4，可以有力的提升計算速度，降低對存儲的消耗。當然，F(xiàn)P8也存在精度不高，容易導(dǎo)致訓(xùn)練失敗的潛在問題。

FP8訓(xùn)練框架局部方案（來源：DeepSeek）

DeepSeek-V3 使用 FP8（8 位浮點數(shù)）來提高計算速度并減少訓(xùn)練期間的顯存使用量。為了讓FP8更好的完成訓(xùn)練，DeepSeek專門設(shè)計了針對FP8的訓(xùn)練框架體系。當然，就在撰寫本文的時候，微軟已經(jīng)跑通了FP4（4位浮點數(shù)）的完整模型訓(xùn)練。

使用FP8框架進行訓(xùn)練的主要挑戰(zhàn)在于精度與誤差的處理。

DeepSeek為其FP8低比特訓(xùn)練框架做了以下優(yōu)化：

1）細粒度量化

將數(shù)據(jù)分解成更小的組，每個組都使用特定乘數(shù)進行調(diào)整以保持高精度。這一方法類似于Tile-Wise或Block-Wise。對于激活，在 1x128 大小的基礎(chǔ)上對計算數(shù)據(jù)進行分組和縮放;對于權(quán)重，以128x128 大小對計算數(shù)據(jù)進行分組和縮放。該方法可以根據(jù)最大或最小數(shù)據(jù)調(diào)整縮放系數(shù)，來更好的適應(yīng)計算中的異常值。

2）在線量化

為了提高精度并簡化框架，該框架在線計算每個 1x128 激活塊或 128x128 權(quán)重塊的最大絕對值，在線推算縮放因子，然后將激活或權(quán)重在線轉(zhuǎn)化為 FP8 格式，而不是采用靜態(tài)的歷史數(shù)據(jù)。相對靜態(tài)的量化方法，該方法可以獲得更高的轉(zhuǎn)換精度，減小誤差的累積。

3）提高累加精度

FP8在大量累加時會累積出現(xiàn)隨機誤差。例如FP8 GEMM在英偉達 H800 GPU上的累加精度保留 14 位左右，明顯低于 FP32 累加精度。以 K = 4096 的兩個隨機矩陣的 GEMM 運算為例，Tensor Core 中的有限累加精度可導(dǎo)致最大相對誤差接近 2%。

DeepSeek將中間結(jié)果儲存計算升級為 FP32（32位浮點），實行高精度累加，然后再轉(zhuǎn)換回 FP8，以降低大量微小誤差累加帶來的訓(xùn)練偏差。

4）低精度/混合精度存儲與通信

為了進一步減少 MoE 訓(xùn)練中的顯存和通信開銷，該框架基于FP8 進行數(shù)據(jù)/參數(shù)緩存和處理激活，以節(jié)省顯存與緩存空間并提升性能，并在 BF16（16位浮點數(shù)）中存儲低精度優(yōu)化器狀態(tài)。

該框架中以下組件保持原始精度（例如 BF16 或 FP32）：嵌入模塊、MoE 門控模塊、歸一化算子和注意力算子，以確保模型的動態(tài)穩(wěn)定訓(xùn)練。為保證數(shù)值穩(wěn)定性，以高精度存儲主要權(quán)重、權(quán)重梯度和優(yōu)化器狀態(tài)。

細粒度量化與提高累加精度（來源：DeepSeek）

以上這些針對FP8訓(xùn)練的優(yōu)化設(shè)計，都是精雕細作的工作，需要框架設(shè)計人員對GPU硬件架構(gòu)和訓(xùn)練誤差具有很強的整合分析能力。從DeepSeek的FP8訓(xùn)練框架來看，這個團隊具有很強的技術(shù)和工程整合能力，已經(jīng)不是單純的大模型算法或AI Infra團隊。

3.2.2 對英偉達GPU市場有巨大影響？

2025年1月27日，英偉達股價暴跌近17%，市值蒸發(fā)近6000億美元，創(chuàng)下美國歷史上單日最大市值跌幅紀錄。AI領(lǐng)域的明星公司普遍遭受重創(chuàng)：博通（Broadcom）下跌17.4%，AMD下跌6.4%。微軟下跌2.1%。此外，AI產(chǎn)業(yè)鏈的衍生板塊也未能幸免，電力供應(yīng)商Constellation Energy下跌近21%，Vistra下跌28%。國內(nèi)很多媒體認為這是DeepSeek的崛起，引起投資者對于英偉達等半導(dǎo)體企業(yè)估值過高的擔憂。

英偉達估值是否過高不好說，畢竟MoE架構(gòu)的發(fā)展已經(jīng)展現(xiàn)出“存力重要性優(yōu)于算力+對存儲帶寬瓶頸下降”的傾向。但從技術(shù)角度看，DeepSeek的大模型目前依然存在對英偉達GPU的路徑依賴。

1）目前英偉達仍在低比特計算方面領(lǐng)先。包括DeepSeek使用的FP8和微軟使用的FP4，都是由英偉達率先產(chǎn)品化并推向市場的。FP8訓(xùn)練最早也是在英偉達內(nèi)部開始驗證的。英偉達之外，暫時還沒有企業(yè)有這樣的生態(tài)推動力和落實能力。

2）MoE模型仍屬于大模型演進的常規(guī)路徑，并不會因為MoE模型的路徑切換導(dǎo)致GPU應(yīng)用不及預(yù)期。目前主要的MoE模型依然是基于英偉達生態(tài)構(gòu)建的，在算力單價昂貴、模型性能仍需提升的現(xiàn)在，MoE的應(yīng)用事實上是基于有限的算力成本，進一步提升通用大模型（以to C為主）性能的有效路徑。這個路線早已有之，不管DeepSeek的影響力是否擴大，目前通用大模型都在朝著這個方向發(fā)展。過于夸大DeepSeek對AI產(chǎn)業(yè)的影響，只會加速美國商務(wù)部對DeepSeek的封禁速度，對DeepSeek自身反而不利。

3）DeepSeek使用的一些訓(xùn)練成本優(yōu)化技術(shù)屬于定制化技術(shù)，其他競品企業(yè)未必有類似的定制能力。例如前面提到的混合精度存儲/計算，與模型本身的特征高度綁定，遷移起來并不簡單，屬于DeepSeek內(nèi)部的定制化技術(shù)，與量化交易中的FPGA優(yōu)化有原理類似之處。這類定制化技術(shù)一般難以簡單的復(fù)制，其他企業(yè)短期內(nèi)難以復(fù)盤，進行規(guī)模化成本降低的概率不高。有這個AI Infra能力的早就已經(jīng)做了，沒有這個能力也不會冒著成本不可控的風(fēng)險冒然進入。

我們認為DeepSeek的V3/R1模型事實上為英偉達GPU開拓了除Llama開源系列Dense模型之外的MoE開源模型新大陸，等同于為蘋果的IOS市場增加了新的免費Killer App。

DeepSeek本身對英偉達的股價影響，看起來更像是駱駝背上的最后一根稻草，大概不會超過以下幾個因素：

1）美國貿(mào)易關(guān)稅風(fēng)險。

2）B200/5090不達市場預(yù)期的風(fēng)險。

3）大陸高成本GPU（主要是H100）算力過剩的風(fēng)險。

4）對大陸禁運加強的風(fēng)險。

3.3 DualPipe優(yōu)化

V3/R1的訓(xùn)練框架中引入DualPipe算法以實現(xiàn)高效的流水線并行性。

與現(xiàn)有的流水線并行（PP）方法相比，DualPipe具備以下優(yōu)勢：

1）DualPipe的流水線氣泡更少，信道使用效率更高。

2）DualPipe將前向和后向傳播中的計算和通信重疊，解決了跨節(jié)點專家并行（EP）帶來的繁重通信開銷問題.

3）在確保計算與通信比例恒定的情況下，具有很好的Scale-out能力。

DualPipe算法將每個數(shù)據(jù)塊分為四個部分：attention（圖中ATTN）、all-to-alldispatch（圖中DISPATCH）、MLP 和 all-to-all combine（圖中COMBINE）。對于后向塊，attention和 MLP 都進一步分為后向輸入、后向權(quán)重。對于一對前向和后向塊，針對通信和計算的過程和瓶頸進行優(yōu)化。DualPipe采用雙向流水線調(diào)度，同時從流水線發(fā)送前向和后向數(shù)據(jù)，盡可能提高使用率。

DualPipe的流水線（來源：DeepSeek）

3.4 跨節(jié)點 All-to-All 通信與顯存優(yōu)化

V3/R1的訓(xùn)練框架還定制了高效的跨節(jié)點All-to-All通信內(nèi)核，以充分利用IB 和 NVLink 帶寬，并節(jié)約流式多處理器（SM，(Stream Multiprocessor）。DeepSeek還優(yōu)化了顯存分配，以在不使用或少使用張量并行（TP）的情況下訓(xùn)練 V3/R1。

3.4.1 對于SM與NVLink的優(yōu)化

為了保證 DualPipe的計算性能不被通信影響，DeepSeek定制了高效的跨節(jié)點 All-to-All 通信內(nèi)核（包括dispatching和 combining），以節(jié)省專用于通信的 SM數(shù)量。

傳統(tǒng)的基于NVSwitch的All-to-All通信結(jié)構(gòu)（來源：互聯(lián)網(wǎng)）

通信內(nèi)核（通信SM控制代碼）的實現(xiàn)與MoE 門控算法和集群網(wǎng)絡(luò)拓撲是按照軟硬件協(xié)同的思路來進行設(shè)計的。具體來說，在集群中，跨節(jié)點 GPU與 IB 完全互連，節(jié)點內(nèi)（單臺服務(wù)器內(nèi)）通信通過NVLink完成。NVLink 提供 160 GB/s 的帶寬，約是 IB 的 3.2 倍（50 GB/s）。

為了有效利用IB 和NVLink的不同帶寬，DeepSeek將每個Token（詞元）的分發(fā)限制為最多4 個節(jié)點，從而減少IB流量限制的影響。對于每個Token，在做節(jié)點間路由決策時，先通過IB傳輸?shù)侥繕斯?jié)點上具有相同節(jié)點內(nèi)索引的GPU；到達目標節(jié)點后，再通過NVLink 轉(zhuǎn)發(fā)到托管目標專家的特定GPU。通過這種方式，通過IB和NVLink的通信重疊，平均每個Token可以在每個節(jié)點選擇3.2名專家，而不會產(chǎn)生額外的NVLink開銷。

實際算法中，V3/R1只通過路由選擇了8個專家，但在保持相同通信成本的情況下，該架構(gòu)可以擴展到最多13 個專家（4 個節(jié)點x3.2個專家/節(jié)點）。

DeepSeek還采用了warp（線程束）專用化技術(shù)，將20個SM劃分為10個通信信道。

1）在調(diào)度過程中，（a）IB 發(fā)送、（b）IB 到NVLink 轉(zhuǎn)發(fā)、（c） NVLink 接收由相應(yīng)的warp處理。分配給每個通信任務(wù)的warp數(shù)量會根據(jù)所有SM的實際工作負載動態(tài)調(diào)整。

2）在合并過程中，（a） NVLink 發(fā)送、（b）NVLink到IB的轉(zhuǎn)發(fā)和累積、（c）IB接收和累積也由動態(tài)調(diào)整的warp處理。

3）dispatching 和combining kernel都與計算流重疊，采用定制的PTX（Parallel Thread Execution）指令以自動調(diào)整通信塊大小，減少了對L2緩存的使用和對其他 SM 的干擾。

3.4.2 顯存節(jié)省技術(shù)

為了減少訓(xùn)練期間的內(nèi)存占用，V3/R1還采用了以下技術(shù)節(jié)省顯存：

DeepSeek采用的顯存節(jié)省技術(shù)（來源：中存算）

技術(shù)	方法說明	優(yōu)勢
RMSNorm 和MLA Up-Projection 的重新計算	在反向傳播期間重新計算所有MSNorm操作和MLA Up-Projection，無需持久存儲其輸出激活	以算代存，充分利用GPU內(nèi)算力充沛但緩存不足的特點
在CPU內(nèi)存中保存指數(shù)平均數(shù)指標（EMA）	在CPU 內(nèi)存中保存EMA，并在每個訓(xùn)練步驟后異步更新	把EMA從GPU顯存占用改為CPU內(nèi)存占用，釋放動態(tài)存儲空間
在多標記預(yù)測（MTP）中共享嵌入和輸出頭	使用DualPipe 策略，將模型最淺的層（包括嵌入層）和最深的層（包括輸出頭）部署在相同的PP等級上	允許MTP模塊和主模型之間物理共享參數(shù)、梯度、嵌入和輸出頭，提升顯存效率

3.4.3 打破了CUDA生態(tài)壁壘？

網(wǎng)上很多人，看到DeepSeek使用了PTX指令，而沒有直接使用CUDA進行SM編程，就認為DeepSeek打破了CUDA生態(tài)的壟斷。

但實際上，

1）PTX指令集也是CUDA生態(tài)的一環(huán)，是CUDA生態(tài)的基礎(chǔ)。

2）PTX指令比CUDA更底層，與英偉達的綁定比CUDA更深。

3）CUDA是以PTX指令集為基礎(chǔ)構(gòu)建的，是PTX的外殼和泛化。

4）PTX的移植比CUDA移植挑戰(zhàn)更大，難以在國產(chǎn)GPU上直接移植。

CUDA與PTX、SASS的層次關(guān)系（來源：互聯(lián)網(wǎng)）

如果把CUDA理解為C語言的話，PTX相當于CUDA的高級匯編語言，可以在不同的GPU上運行。另一種更加底層的指令集是Streaming Assembly（SASS），與GPU的型號深度幫綁定。無論PTX還是SASS都是英偉達的根基，其他GPU廠家很難插手。

DeepSeek在訓(xùn)練過程中使用PTX，感覺就是量化碼農(nóng)用C語言寫交易代碼，發(fā)現(xiàn)優(yōu)化效率不夠，那么就嘗試在C語言中嵌入?yún)R編語言來提高硬件調(diào)度效率。難道這就等于打破了C語言的江湖地位？

3.4.4 挖了NVLink的墻角？

有傳言說DeepSeek主要使用Infiniband，以EP（專家并行）代替TP（張量并行），挖了NVLink的墻角，從而堅定的認為以PCIe（節(jié)點內(nèi)互連）+IB（節(jié)點間互連）就足以進行大模型的訓(xùn)練。

在這里面，NVLink主要負責(zé)芯片間（C2C）的通信，而Infiniband負責(zé)節(jié)點間（服務(wù)器間）通信。如果使用PCIe進行C2C通信，帶寬遠不如NVLink。

NVLink+Infinband互連（來源：英偉達）

規(guī)避NVLink的想法很美好，但現(xiàn)實很骨感。按照DeepSeek發(fā)表的論文描述，只是在早期沒有加入NVSwitch的時候用過PCIe+InfiniBand實現(xiàn)HFReduce，當具備NVSwitch后就立刻增加了HFReduce with NVLink。特別是在V3的論文中，明確寫了針對NVLink信道加入了定制PTX優(yōu)化，好讓更多的有效SM參與計算。

這就好比學(xué)校的教學(xué)高樓里沒有大電梯，怕樓梯上孩子太多出危險，就先用“算法+樓梯”代替，拿到“算法許可”的小孩才能到不同樓層去報道。但不能說這樣就挖了“電梯”的墻角，卡住了“電梯”的脖子。一個高效的訓(xùn)練系統(tǒng)，依然需要大量的C2C或D2D互連實現(xiàn)更優(yōu)的拓撲結(jié)構(gòu)。咱不能因為玄奘法師能克服艱難險阻走到古印度取到真經(jīng)，就認為需要反思火車飛機的重要性。

“打破CUDA壟斷”？“挖了NVLink的墻角”？“引發(fā)英偉達市值大跌”？“證明大模型算力建設(shè)浪費”？“算力霸權(quán)轉(zhuǎn)移”？“國運級的創(chuàng)新”？這些說法是否屬實？

本文是從V3到R1的架構(gòu)創(chuàng)新與誤傳的萬字長文分析的下篇。下面我們繼續(xù)分析V3與R1的訓(xùn)練和蒸餾，分層解讀DeepSeek的創(chuàng)新。

中場休息

4 V3的訓(xùn)練流程

DeepSeek的R1是以V3為基礎(chǔ)構(gòu)建的（冷啟動）。如果想深入理解R1的訓(xùn)練，就要先看V3的訓(xùn)練流程。V3的訓(xùn)練包括預(yù)訓(xùn)練（含基礎(chǔ)預(yù)訓(xùn)練和上下文長度擴展）、后訓(xùn)練三個階段。

在預(yù)訓(xùn)練階段后，對DeepSeek-V3進行了兩次上下文長度擴展，第一階段將最大上下文長度擴展到32K，第二階段進一步擴展到128K。然后在 DeepSeek-V3的基礎(chǔ)模型上進行包括有監(jiān)督精調(diào) (SFT) 和強化學(xué)習(xí)(RL)在內(nèi)的后訓(xùn)練，使其更貼近人類的偏好。

DeepSeek-V3訓(xùn)練流程（來源：中存算）

4.1 V3的基礎(chǔ)預(yù)訓(xùn)練

DeepSeek-V3 總共包含 671B參數(shù)，其中每個Token激活了37B。在路由專家中，每個Token激活8個專家，并確保每個Token最多發(fā)送到4個節(jié)點，以減小通信資源的浪費。多Token預(yù)測（MTP）深度設(shè)置為1，即除了下一個 Token之外，每個Token還將預(yù)測一個額外的Token。

在14.8T預(yù)訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)上，V3采用了以下策略：

1）提高數(shù)學(xué)和編程樣本的比例來優(yōu)化預(yù)訓(xùn)練語料庫，以提升推理能力。

2）基于中國互聯(lián)網(wǎng)可用的語料庫整合了更多的中文數(shù)據(jù)。（這也是V3能玩中文梗的關(guān)鍵）

3）將多語言覆蓋范圍擴展到英文和中文之外。

4）優(yōu)化數(shù)據(jù)處理/過濾算法，在保持語料庫多樣性的同時最大限度減少信息冗余。

過濾掉有爭議的內(nèi)容，減少特定區(qū)域文化引入的數(shù)據(jù)偏差

5）通過文檔打包，減少在短文本塊的訓(xùn)練浪費，同時在訓(xùn)練過程中沒有使用交叉樣本注意力屏蔽。

高質(zhì)量的數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)投喂順序，其實是大模型性能提升的關(guān)鍵。可惜DeepSeek并沒有給出預(yù)訓(xùn)練數(shù)據(jù)更具體的構(gòu)建方法。

Fill-in-Middle方法（來源：互聯(lián)網(wǎng)）

V3的訓(xùn)練采用前綴-后綴-中間（PSM）框架來構(gòu)建FIM訓(xùn)練數(shù)據(jù)。Fill-in-Middle（FIM，中間補全）是一種針對代碼補全能力的預(yù)訓(xùn)練方式，模型在訓(xùn)練過程中學(xué)習(xí)使用上下文的語境來預(yù)測文段中間缺失的部分。FIM策略不會損害下一Token預(yù)測（NTP）能力，同時可使模型能夠根據(jù)上下文線索準確預(yù)測中間文本。

V3使用AdamW 優(yōu)化器來預(yù)訓(xùn)練，同時避免過度擬合。

4.2 V3長文擴展訓(xùn)練

在基礎(chǔ)預(yù)訓(xùn)練后，V3使用YARN技術(shù)將上下文長度，按照兩階段訓(xùn)練擴展到128K，每個階段包括1000步。在第一階段，使用32K的序列長度和1920的批量來執(zhí)行1000步訓(xùn)練。在第二階段，采用128K的序列長度和480個序列的批量大小執(zhí)行1000步訓(xùn)練。

4.3 V3的后訓(xùn)練/精調(diào)

4.3.1 V3的有監(jiān)督精調(diào)（SFT）

V3的有監(jiān)督精調(diào)做了以下這些事：

1）梳理指令精調(diào)（instruction-tuning）數(shù)據(jù)集。該數(shù)據(jù)集包括1.5M個實例，跨多個域，每個域都量身定制的不同的數(shù)據(jù)合成方法。

2）利用DeepSeek-R1 模型合成與推理（Reasoning）相關(guān)的SFT數(shù)據(jù)集。這里很有意思，基于R1來SFT V3，再基于V3冷啟動R1。感覺上這里有關(guān)鍵的訓(xùn)練信息沒有透露，DeepSeek應(yīng)該還是留了一手。

3）為特定領(lǐng)域（例如代碼、數(shù)學(xué)或一般推理）構(gòu)建量身定制的專家模型數(shù)據(jù)合成器。使用復(fù)合有監(jiān)督精調(diào)和強化學(xué)習(xí)訓(xùn)練該專家模型。訓(xùn)練過程中為每個實例生成兩種不同類型的 SFT樣本：第一種將問題與其原始響應(yīng)耦合，格式為，而第二種將系統(tǒng)提示與問題和R1響應(yīng)合并，格式為。

4）建立高質(zhì)量提示（Prompt）體系，引導(dǎo)模型形成自身的反饋與驗證機制。同時整合了來自R1合成的數(shù)據(jù)，通過強化學(xué)習(xí)加強這一能力。

5）對于非推理數(shù)據(jù)（例如創(chuàng)意寫作、角色扮演和簡單的問答），利用 DeepSeek-V2.5生成數(shù)據(jù)，并通過人工注釋驗證數(shù)據(jù)的準確性。

4.3.2 V3的強化學(xué)習(xí)

V3的強化學(xué)習(xí)包括獎勵模型與組相對策略優(yōu)化（GRPO）。

與GPT-4類似，V3中獎勵模型包括：

1）基于規(guī)則的獎勵模型

對于可以使用特定規(guī)則驗證的問題，采用基于規(guī)則的獎勵模型來提供訓(xùn)練反饋。例如，對于LeetCode問題，可以利用編譯器根據(jù)測試用例生成反饋?；谝?guī)則的模型驗證，可以確保更高的生成可靠性。

2）基于模型的獎勵模型

對于不具有收斂性的問題，依靠模型判斷來確進行強化學(xué)習(xí)。V3訓(xùn)練中構(gòu)建了特殊的偏好數(shù)據(jù)，該數(shù)據(jù)同時包括提供最終獎勵結(jié)果和形成獎勵的思維鏈，以降低特定任務(wù)中的獎勵破解攻擊風(fēng)險。

大模型的訓(xùn)練通常用無監(jiān)督或有監(jiān)督進行預(yù)訓(xùn)練，然后通過有監(jiān)督精調(diào)（SFT）進一步學(xué)習(xí)。然而SFT有時難以將人類的偏好顯式地整合進去，這時就需要強化學(xué)習(xí)來進行精調(diào)。在以往的大模型訓(xùn)練中一般使用PPO（Proximal Policy Optimization）來形成梯度策略。PPO的代價在于需要維護較大的價值網(wǎng)絡(luò)（也是一個神經(jīng)網(wǎng)絡(luò)），需要占用較大的顯存與計算資源。

GRPO與PPO對比（來源：DeepSeek）

V3中則采用了DeepSeek提出的GRPO（Group Relative Policy Optimization）策略，只需要在一個分組內(nèi)進行多個采樣輸出的比較，再根據(jù)比較結(jié)果選擇較優(yōu)的策略。GRPO中不再需要一個顯式的價值網(wǎng)絡(luò)，從而降低了顯存占用并提高了訓(xùn)練速度。

GRPO的計算流程包括：

1）采樣一組輸出并計算每個輸出的獎勵。

2）對組內(nèi)獎勵進行歸一化處理。

3）使用歸一化后的獎勵計算優(yōu)勢函數(shù)。

4）通過最大化目標函數(shù)更新策略模型。

5）迭代訓(xùn)練，逐步優(yōu)化策略模型。

5 R1的訓(xùn)練流程

5.1 無SFT的R1-Zero訓(xùn)練

DeepSeek-R1 建立在其基礎(chǔ)模型DeepSeek-V3的混合專家（MoE）架構(gòu)之上，采用專家并行方式，對于任意輸入，只有部分參數(shù)處于活躍狀態(tài)。

作為R1的無SFT版本，R1-Zero使用 DeepSeek-V3-Base 作為基礎(chǔ)模型，直接使用 GRPO進行強化學(xué)習(xí)來提升模型的推理（Reasoning）性能, 根據(jù)準確度和格式進行訓(xùn)練獎勵。

R1-Zero的訓(xùn)練過程具有重要意義：

1）在大模型訓(xùn)練領(lǐng)域，SFT 需要高質(zhì)量的人工標注數(shù)據(jù)（標注過程一般需要很長周期、成本高，且可能因標記者的偏好而引入潛在偏差）。

2）復(fù)雜的推理任務(wù)可能超出了普通人類的能力。無SFT的純強化學(xué)習(xí)方法也許可以使模型能夠涌現(xiàn)出超越傳統(tǒng)人類思維上限的超級推理能力。

3）無SFT的純強化學(xué)習(xí)不依賴于顯式標注，允許模型使用非自然語言表征方法進行“思考”，從而具有超越自然語言進行邏輯推理的潛力。

獎勵的計算方式在很大程度上決定了強化學(xué)習(xí)訓(xùn)練的效果。DeepSeek-R1-Zero 的基于規(guī)則的獎勵系統(tǒng)包括：

1）準確度獎勵（Accuracy rewards）。評估響應(yīng)是否正確。

2）格式獎勵（Format rewards）。獎勵模型將其思考過程置于“”和“”標簽之間。

DeepSeek的準確度獎勵與格式獎勵（來源：互聯(lián)網(wǎng)）

通過強化學(xué)習(xí)訓(xùn)練，R1-Zero 形成了復(fù)雜的推理能力，包括反思（模型重新審視并重新評估其先前的回答）以及探索解決問題的替代方法。這些能力并非通過常規(guī)編程或提示工程實現(xiàn)的，而是大模型在強化學(xué)習(xí)環(huán)境中自發(fā)產(chǎn)生的能力。

根據(jù)R1的論文，強化學(xué)習(xí)訓(xùn)練中R1-Zero形成的另一個關(guān)鍵特征是頓悟時刻（Aha Moment）。R1-Zero 通過重新評估其初始方法學(xué)會為問題分配更多的思考時間（更長的推理）。無需明確的教模型如何解決問題，只需為其提供適當?shù)募睿Ｐ途蜁灾餍纬山鉀Q問題的策略。這也說明強化學(xué)習(xí)有潛力解鎖新的智能水平，為未來更自主、更具適應(yīng)性的模型鋪平道路，提供了形成超級智能的可能路線。

與OpenAI的GPT-4 相比，DeepSeek-R1-Zero在推理任務(wù)上表現(xiàn)出了顯著的改進。例如，在AIME2024 基準（推理能力測試）上，DeepSeek-R1-Zero的性能從15.6%躍升至71.0%，這表明R1-Zero的無SFT推理訓(xùn)練方法是有效的。

5.2 DeepSeek-R1的訓(xùn)練流程

DeepSeek-R1 的訓(xùn)練過程分為4個階段，包括使用數(shù)千高質(zhì)量CoT示例進行SFT的冷啟動，面向推理的強化學(xué)習(xí)，通過拒絕抽樣的SFT，面向全場景任務(wù)的強化學(xué)習(xí)與對齊。

兩個SFT階段進行推理和非推理能力的能力植入，兩個強化學(xué)習(xí)階段旨在泛化學(xué)習(xí)推理模式并與人類偏好保持一致。

DeepSeek-R1訓(xùn)練流程（來源：中存算）

5.2.1冷啟動（Cold Start）：CoT SFT

與R1-Zero不同，R1首先基于DeepSeek-V3-Base進行有監(jiān)督精調(diào)（SFT），以克服強化學(xué)習(xí)的早期不穩(wěn)定。DeekSeek認為這種基于人類先驗知識冷啟動并進行迭代訓(xùn)練的方式更適合推理模型。

由于這一訓(xùn)練階段主要采用CoT數(shù)據(jù)，我們更喜歡將其稱為CoT SFT。

為構(gòu)建少量的長CoT數(shù)據(jù)，DeepSeek探索了幾種合成方法：使用長CoT 的few-shot提示作為示例，直接提示模型通過反思和驗證生成詳細回答，以可讀格式收集DeepSeek-R1-Zero 輸出，并通過人工標注員的后處理來完善結(jié)果。在此步驟中收集了數(shù)千個冷啟動樣本以進行精調(diào)。

其中可讀模式指為每個回答在末尾包含一個摘要，并過濾掉不易閱讀的部分。其輸出格式為 |special_token||special_token|

。

5.2.2 面向推理的強化學(xué)習(xí)

在基于冷啟動數(shù)據(jù)對V3-Base 精調(diào)后，采用與R1-Zero相當?shù)膹娀瘜W(xué)習(xí)訓(xùn)練流程，基于GRPO進行強化學(xué)習(xí)，根據(jù)準確度和格式進行訓(xùn)練獎勵。為了解決語言混雜問題，還在強化學(xué)習(xí)訓(xùn)練中引入了語言一致性獎勵，該獎勵以CoT中目標語言單詞的比例計算。

此階段主要提升模型的推理（Reasoning）性能，特別是在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理密集型任務(wù)，這些任務(wù)涉及定義明確且解決方案明確的問題。

5.2.3 拒絕采樣與SFT

這是另一個使用標記數(shù)據(jù)的有監(jiān)督精調(diào) (SFT)訓(xùn)練階段，分批進行了兩個epoch的精調(diào)，樣本量為800k。800k中包括600k推理數(shù)據(jù)和200k非推理數(shù)據(jù)。

與主要側(cè)重于推理的冷啟動數(shù)據(jù)不同，此階段結(jié)合了來自其他領(lǐng)域的數(shù)據(jù)，以增強模型在寫作、角色扮演和其他通用任務(wù)中的能力。

拒絕采樣（Rejection Sampling）提供了一種橋梁，使用易于采樣的分布來近似訓(xùn)練真正感興趣的復(fù)雜分布。目標響應(yīng)（ground-truth）從一組生成的回答經(jīng)過拒絕采樣生成，其分數(shù)由獎勵系統(tǒng)確定。

拒絕采樣（Rejection Sampling）是一種蒙特卡洛方法，和重要性采樣一樣，都是在原始分布難以采樣時，用一個易于采樣的建議分布進行采樣，通過拒絕原始分布之外的采樣數(shù)據(jù)來獲得采樣結(jié)果。拒絕采樣只是為了解決目標分布采樣困難問題，該方法需要原始分布是已知的。

拒絕采樣示意（來源：互聯(lián)網(wǎng)）

600k推理數(shù)據(jù)的生成：

1）通過從上一輪強化學(xué)習(xí)訓(xùn)練的檢查點進行拒絕抽樣，整理推理提示并生成推理軌跡（Reasoning Trajectories）。

2）除基于規(guī)則獎勵進行評估的數(shù)據(jù)外，還包括了基于獎勵模型的V3判斷生成數(shù)據(jù)。

3）過濾掉了混合語言、長段落和代碼塊的思路鏈數(shù)據(jù)。

4）對于每個提示（Prompt），會生成多個回答，然后并僅保留正確的響應(yīng)。

200k非推理數(shù)據(jù)的生成（如寫作、事實問答、自我認知和翻譯等）：

1）采用DeepSeek-V3流程并復(fù)用V3 的部分 SFT 數(shù)據(jù)集。

2）可調(diào)用V3生成潛在的思路鏈，再通過提示回答。

3）對于更簡單的查詢（例如“你好”），不提供CoT回答。

5.2.4 面向全場景的強化學(xué)習(xí)與對齊

最后，再次進行面向全場景的強化學(xué)習(xí)和人類偏好對齊，以提高模型的有用性和無害性，并完善推理能力。此階段還整合了來自不同管道的數(shù)據(jù)，將獎勵信號與不同的提示分布相結(jié)合。

1）使用獎勵信號和多種提示分布（Diverse Prompt Distributions）的組合來訓(xùn)練模型。

2）對于推理數(shù)據(jù)，利用基于規(guī)則的獎勵來指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的訓(xùn)練過程。

3）對于一般數(shù)據(jù)，采用獎勵模型來捕捉復(fù)雜微妙場景中的人類偏好。即參考DeepSeek-V3 管訓(xùn)練流程，采用類似的偏好對和訓(xùn)練提示分布。

4）對于有用性，只關(guān)注最終摘要，以確保重點響應(yīng)對用戶的實用性和相關(guān)性，最大限度減少對底層推理過程的干擾。

5）對于無害性，評估模型的整個響應(yīng)，包括推理過程和摘要，以識別和減輕生成過程中可能出現(xiàn)的潛在風(fēng)險、偏見或有害內(nèi)容。

至此已完成R1的完整訓(xùn)練過程，獲得了具備全場景推理能力的通用MoE模型，上下文長度均為128K。

Model	#Total Params	#Activated Params	Context Length
DeepSeek-R1-Zero	671B	37B	128K
DeepSeek-R1	671B	37B	128K

5.3 從MoE回歸Dense（蒸餾SFT）

盡管MoE架構(gòu)有各種優(yōu)點，特別是在通用的to C領(lǐng)域具備低成本的優(yōu)勢。但是MoE的架構(gòu)特點使得其可能不太適用于專業(yè)應(yīng)用場景（例如單一專家場景）和資源限制場景（例如端側(cè)推理）。

蒸餾是將復(fù)雜的大型神經(jīng)網(wǎng)絡(luò)壓縮為更小、更簡單的神經(jīng)網(wǎng)絡(luò)，同時盡可能多的保留結(jié)果模型的性能的過程。此過程涉及訓(xùn)練較小的“學(xué)生“神經(jīng)網(wǎng)絡(luò)，通過其預(yù)測或內(nèi)部表示的精調(diào)來學(xué)習(xí)模擬更大、更復(fù)雜的“教師”網(wǎng)絡(luò)的行為。

模型蒸餾方法（來源：互聯(lián)網(wǎng)）

為了能夠?qū)⑼评砟芰w移到MoE架構(gòu)不適合的場景，DeepSeek選擇Llama和Qwen系列開源大模型進行蒸餾，使相應(yīng)的Dense模型也能獲得推理能力。與使用強化學(xué)習(xí)相比，直接SFT更適合較小的大模型，蒸餾完成的Dense模型推理能力明顯好于原開源模型。

DeepSeek-R1-Distill模型（來源：DeepSeek）

Model	Base Model
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct

5.4 更大顯存容量顯得尤為重要？

隨著MoE架構(gòu)大模型的快速推廣，產(chǎn)業(yè)界也有看法認為在單塊GPU上集成更大的超過對等算力的顯存或擴展存儲顯得尤為重要。

我們對此持不同看法，首先要看產(chǎn)品應(yīng)用場景占有率，其次要看實際的部署方案，最后要看成本比較：

1）根據(jù)前面分析，目前主力的專業(yè)行業(yè)應(yīng)用仍是使用Dense模型，能部署MoE模型的通用AI巨頭早已下場完成部署，從目前的應(yīng)用比例來看，使用Dense模型的依然占據(jù)應(yīng)用主體。對于Dense模型（實際上是單專家的特例），超過對等算力的單卡大顯存或擴展存儲容易形成浪費。

同樣模型性能下MoE模型需要更大的顯存（來源：Meta）

2）根據(jù)從廠商和V3論文獲得的實際部署方案，為保證MoE部分不同專家之間的負載均衡，會將共享專家和高負載的細粒度專家在集群的不同GPU做多個復(fù)制，讓GPU把更多的熱數(shù)據(jù)（發(fā)給共享專家的）跑起來，V3部署中每個GPU大概托管9個專家。如果考慮這9個專家中有一個是參數(shù)最多的共享專家，那么事實上每塊GPU上的空閑細粒度專家占據(jù)的參數(shù)總和可能不超過單塊GPU上總參數(shù)量的1/3。

MoE的跨GPU部署模式（來源：微軟）

3）從成本上看，可能把一部分專家放到CPU上更劃算。我們認為MoE上的專家可以分為高頻專家、中頻專家，低頻專家。高頻專家和中頻專家搭配部署在GPU上比較合適，低頻專家調(diào)度很少，更適合放在服務(wù)器上已有的閑置CPU的內(nèi)存上（CPU上的標準內(nèi)存比GPU的HBM便宜很多，擴展性更好），以充分利用全服務(wù)器的算力降低綜合成本。

MoE模型的GPU+CPU混合部署（來源：Meta）

另外，R1自己都做Dense模型的蒸餾版本了，我們?yōu)楹芜€要糾結(jié)于高于對等算力帶寬的超大顯存？

6 結(jié)語

6.1 DeepSeek的關(guān)鍵貢獻

DeepSeek由梁文鋒于2023 年5月創(chuàng)立，公司獨立運營，并由幻方支持研發(fā)資金。這種獨特的模式使DeepSeek能夠在沒有外部投資者壓力的情況下開展跨越式的人工智能研發(fā)，優(yōu)先考慮長期研發(fā)和價值。

成立6個月后，DeepSeek于2023年11月發(fā)布的DeepSeek Coder，隨后是 DeepSeek LLM 67B，DeepSeek逐漸踏上了基礎(chǔ)大模型的競爭賽道。2024年5月推出的DeepSeek-V2就呈現(xiàn)出MLA和AI Infra技術(shù)的明顯領(lǐng)先優(yōu)勢，極具性價比，引發(fā)了中國大模型市場的價格跳水和血拼。

在V2發(fā)布后，我們就已經(jīng)關(guān)注到DeepSeek在算法-硬件協(xié)同優(yōu)化方面的出色表現(xiàn)。主編作者在2024年6月，為前來咨詢的投資人推薦DeepSeek的高性價比路線。

V3和R1發(fā)布并開源后，DeepSeek進一步鞏固了其在MoE性價比和AI Infra的地位，并以開源模型中幾乎最出色的推理性能，贏得社會的廣泛關(guān)注。

對于R1/V3的主要創(chuàng)新，可以參考下表：

DeepSeek-R1/V3的主要創(chuàng)新（來源：中存算）

R1/V3的優(yōu)化	R1/V3的創(chuàng)新與價值（實現(xiàn)了與 OpenAI-o1-1217 相當?shù)男阅埽?/th>	其他開源大模型（相當于Llama3.3的性能）
軟硬件結(jié)合，提高模型計算效率降低成本	提出MLA，通過將鍵值 (KV) 緩存顯著壓縮為潛在向量來保證高效推理	采用GQA或MHA，占用KV緩存比MLA大一個數(shù)量級
減少冗余，提高模型計算效率降低成本	提出DeepSeekMoE，采用細粒度專家分割和共享專家隔離，減少冗余的專家參數(shù)	采用粗粒度專家，模型參數(shù)冗余大
改進算法，提高訓(xùn)練效率	提出無輔助損失策略，改善MoE模型訓(xùn)練	采用常規(guī)輔助損失策略，容易訓(xùn)練失敗
簡化算法，提高訓(xùn)練效率	采用GRPO進一步使模型與人類偏好對齊，提高訓(xùn)練效率	采用PPO，訓(xùn)練效率不高
軟硬件結(jié)合，提高訓(xùn)練效率	基于開源代碼開發(fā)自有的FP8混合精度訓(xùn)練框架，提升訓(xùn)練效率	傳統(tǒng)開源訓(xùn)練框架，以BF16或FP32為主，顯存占用超過FP8，訓(xùn)練速度較慢
軟硬件結(jié)合，提高訓(xùn)練效率	DualPipe算法來實現(xiàn)高效的流水線并行	默認流水線并行算法，氣泡較多
軟硬件結(jié)合，提高訓(xùn)練效率	跨節(jié)點All-to-All通信內(nèi)核，使用PTX編程以充分利用InfiniBand（IB）和NVLink帶寬	默認通信內(nèi)核，
改進數(shù)據(jù)，提高模型性能	使用長思維鏈(CoT)數(shù)據(jù)進行模型訓(xùn)練，提升模型能力	幾乎無長思維鏈訓(xùn)練

我們經(jīng)過分析，認為DeepSeek的算法架構(gòu)能力已經(jīng)達到國際一線水平（例如MLA和GRPO算法），而其AI Infra團隊的軟硬件協(xié)同設(shè)計水平（例如FP8訓(xùn)練框架和基于PTX進行All-to-All通信內(nèi)核優(yōu)化）和自由探索，可能已暫時超越大部分國際大模型企業(yè)?；旧螪eepSeek團隊對GPU的性能使用率已接近技術(shù)上限，實現(xiàn)了在現(xiàn)有GPU體系內(nèi)的軟件Sacle-up。

如果有這樣超越其他大廠一個數(shù)量級的訓(xùn)練效率提升，估計很多大模型煉丹師夢里都要樂開花了。

6.2 R1的出現(xiàn)是國運級的貢獻嗎？

有人提出DeepSeek所作的工作可能是一種國運級別的科技成果。

作為本文的主編作者，我個人只在小時候看過一點點梅花易數(shù)的介紹，對于推算國運的太乙神數(shù)一直沒有機會了解和獲得傳承，不好隨意講這是不是國運級的成果。

我對最近DeekSeek的影響力傳播看法如下：

1）對DeepSeek的成果，特別是V3/R1開源，應(yīng)有產(chǎn)業(yè)的高度肯定。但過度褒揚對DeekSeek大概率是不利的甚至是極為有害的，會導(dǎo)致專心做事的人要疲于應(yīng)付各種俗務(wù)，也大概率導(dǎo)致DeepSeek招致美國商務(wù)部的打壓。

2）梁文鋒本人一貫低調(diào)，在創(chuàng)立幻方后那么多年，幾乎沒有出來宣傳或炒作。媒體和社會如能參考DeepSeek創(chuàng)始人的個人行事風(fēng)格，給更多類似DeepSeek的本土人才和企業(yè)予以支持，會更有利于國運。

3）脫離實際技術(shù)分析的對DeepSeek的評判多數(shù)是霧里看花，少一些人與亦云的評判，多一些實干，對所有心懷理想的人都是好事。

4）會有比R1更顛覆性的先進大模型出現(xiàn)。如同前幾年的熱炒OpenAI和Kimi，技術(shù)總會不斷進步，對于DeepSeek來說，還有更加重要的目標和星辰大海，R1僅僅是海邊新發(fā)現(xiàn)的璀璨貝殼。

5）是否是對OpenAI模型的蒸餾根本不重要。學(xué)習(xí)和參考是人類社會進步的階梯，開源更是對大模型技術(shù)進步的頭號貢獻。一兩家閉源巨頭大概率沒有足夠的資源儲備來推動人類AGI的顛覆式發(fā)展，只有更多的DeepSeek這樣的力量貢獻到開源社區(qū)，才能形成合力實現(xiàn)超級人工智能。

6.3 對于國產(chǎn)AI芯片的啟示

DeepSeek的進步和成果，也給國產(chǎn)AI芯片的發(fā)展提供了一些啟示。

一方面，一級市場需要升級投資邏輯，不用再崇洋媚外。事實證明純本土的研發(fā)團隊，甚至是純本土新人團隊，完全由能力做出有國際影響力的成果和產(chǎn)品。國內(nèi)算法不再死跟著老美屁股后面，國內(nèi)的AI芯片也大可不必死跟著英偉達做傳統(tǒng)GPU。新的架構(gòu)AI芯片，新的GPU架構(gòu)，跨領(lǐng)域的技術(shù)融合，正形成新的產(chǎn)業(yè)窗口。

另一方面，DeepSeek的技術(shù)成果，事實也凸顯出算力對模型進步的重要性。DeepSeek的算法進步速度之快，與其算力使用效率比其他團隊高約一個數(shù)量級有非常密切的關(guān)系。（當然DeepSeek可使用的算力總量也不低）在這樣的一個算法大發(fā)展契機，盡快發(fā)展新架構(gòu)AI芯片，發(fā)展3D封裝集成，發(fā)展高速互連，發(fā)展開源編譯生態(tài)，搶占MoE模型發(fā)展期的技術(shù)紅利，對中國的芯片產(chǎn)業(yè)就顯得尤為重要。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴