91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA ? 作者:NVIDIA ? 2025-07-02 19:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,大語言邏輯推理模型取得了顯著進步,但也帶來了新的部署挑戰(zhàn)。其中,因復雜的“思考與邏輯推理”過程而引起的輸出序列長度 (OSL) 的加長已成為一大難題。OSL 的加長提高了對 token 間延遲 (Token-to-Token Latency, TTL) 的要求,往往會引發(fā)并發(fā)限制。在最極端的情況下,實時應用會面臨單并發(fā)(最小延遲場景)這一特別棘手的問題。

本文將探討NVIDIATensorRT-LLM如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 GTC 2025 前將 67 token / 秒 (TPS) 的速度提升至 253 TPS(提速3.7 倍),而目前這一速度已達 368 TPS(提速5.5 倍)。

實現(xiàn)配置

一、工作負載配置文件

輸入序列長度 (ISL):1000 token

輸出序列長度 (OSL):2000 token

二、模型架構

DeepSeek-R1 的基礎主模型包含:3 個密集層(初始)和 58 個 MoE 層,此外還有 1 個多 token 預測 (Multi-Tokens Prediction, MTP) 層(相當于 MoE 架構)用于推測性解碼。我們的優(yōu)化配置將 MTP 層擴展成 3 個層,采用自回歸方法探索其最大性能。

0f5a9298-5736-11f0-baa5-92fbcf53809c.jpg

圖1: DeepSeek-R1 的基礎主模型

該圖片來源于 Github: Pushing Latency Boundaries: Optimizing DeepSeek-R1 Performance on NVIDIA Blackwell GPUs 一文,若您有任何疑問或需要使用該圖片,請聯(lián)系該文作者

三、精度策略

我們探索出了一種能夠更好平衡準確度與性能的混合精度方案。

0f896884-5736-11f0-baa5-92fbcf53809c.png

* TensorRT-LLM 已支持 FP8 Attention。但在該延遲場景下,低精度注意力計算并不能提升性能,因此我們?yōu)樽⒁饬δK選擇了 BF16 精度。

** NVFP4 模型檢查點由 NVIDIA TensorRT 模型優(yōu)化器套件生成。

*** RouterGEMM 使用 BF16 輸入 / 權重與 FP32 輸出來確保數(shù)值的穩(wěn)定性

四、并行策略


我們還在 8 個 Blackwell GPU 上嘗試并引入了混合并行策略。具體而言,該延遲場景的最佳策略為 “TP8EP2”,其定義如下:

0f9d2d74-5736-11f0-baa5-92fbcf53809c.png

五、一圖整合

現(xiàn)在,我們將所有內(nèi)容整合成一張圖,該圖表示的是解碼迭代中的一個 MoE 層。

0fb4860e-5736-11f0-baa5-92fbcf53809c.png

該圖片來源于 Github: Pushing Latency Boundaries: Optimizing DeepSeek-R1 Performance on NVIDIA Blackwell GPUs 一文,若您有任何疑問或需要使用該圖片,請聯(lián)系該文作者

圖中的模塊包括:

  • 輸入模塊:一個形狀為 [m, 7168] 的 BF16 張量,其中 m 表示 token 數(shù)量(例如使用 3 個 MTP 層時 m = 4),7168 為模型的隱藏大小。

  • 模塊 1:Fuse_A_GEMM 拼接 WDQ、WDKV 和 WKR 的權重,以減少內(nèi)核調(diào)用開銷。

  • 模塊 2:2 個 RMSNorm 對 Q / K 張量進行歸一化。這些張量可以重疊在多個流上,也可以合并成單個分組 RMSNorm。

  • 模塊 3:UQ_QR_GEMM 拼接 WUQ 和 WQR 的權重,以減少內(nèi)核調(diào)用開銷。

  • 模塊 4:UK_BGEMM 在批量 GEMM 中使用 WUK。為防止權重規(guī)模膨脹和產(chǎn)生新的加載成本,我們未加入模塊 3 和 4。

  • 模塊 5:Concat KVCache & applyRope 合并 K / V 緩存并應用 ROPE(旋轉(zhuǎn)位置編碼)。

  • 模塊 6:genAttention 在生成階段執(zhí)行 MLA,作用類似于 num_q_heads = 128 / TP8 = 16 的 MQA

  • 模塊 7:UV_GEMM 執(zhí)行帶 WUV 權重的批量 GEMM。

  • 模塊 8:WO_GEMM 使用 WO 權重運行密集 GEMM。為避免增加權重加載的開銷,我們未加入模塊 7 和 8。

  • 模塊 9:融合內(nèi)核將 oneshotAllReduce、Add_RMSNorm 和 DynamicQuant (BF16->NVFP4) 整合到單個內(nèi)核中。

  • 模塊 10:routerGEMM & topK 處理路由器 GEMM (Router GEMM) 和 topK 選擇。

  • 模塊 11:共享專家模型與模塊 10 和模塊 12 部分重疊。

  • 模塊 12:稀疏專家模型通過分組 GEMM (Grouped GEMM) 實現(xiàn)專家層。

  • 模塊 13:最終融合內(nèi)核同時執(zhí)行 localReduction、oneshotAllReduce 和 Add_RMSNorm 操作。

主要優(yōu)化

0fc30292-5736-11f0-baa5-92fbcf53809c.png

0fdad5ac-5736-11f0-baa5-92fbcf53809c.png

一、系統(tǒng)級優(yōu)化

1、CUDA Graph 與可編程依賴啟動

CUDA Graph 對于克服小型工作負載中的 CPU 開銷必不可少,而可編程依賴啟動可進一步降低內(nèi)核啟動延遲。

2、MTP

基于 MTP 的兩種優(yōu)化措施:

1) 自回歸 MTP 層

0ff175be-5736-11f0-baa5-92fbcf53809c.png

根據(jù)我們的研究結(jié)果,3x MTP 層的配置性能最佳。

2) 寬松接受驗證

邏輯推理模型 (如 DeepSeek R1) 的生成過程可以分為兩個階段:思考階段和實際輸出階段。在思考階段,如果啟用寬松接受 (Relax Acceptance) 模式,候選 token 處于候選集時即可被接受。該候選集基于 logits topN 和概率閾值生成。

  • topN:從 logits 中采樣前 N 個 token。

  • 概率閾值:基于 topN 個候選 token,只有概率大于 Top1 的概率減去 delta 的 token 時可保留在候選集。

在非思考階段,我們?nèi)圆捎脟栏窠邮苣J健?/span>

10048fbe-5736-11f0-baa5-92fbcf53809c.png

這是一種寬松的驗證和比較方法,可以在對精度影響很小的情況下,提升接受率并帶來加速。

1014eeb8-5736-11f0-baa5-92fbcf53809c.png

如需了解更多信息,請訪問:

multi-token-prediction-mtp

3、多流

我們引入了基于多流的優(yōu)化措施以隱藏部分內(nèi)核的開銷,例如:

  • 將共享專家模型與稀疏專家模型重疊

  • 將 Concat_KVCache 內(nèi)核與 GEMM 重疊

稀疏專家模型作為 GEMM (僅當 moe_backend=CUTLASS 時有效)

102b7430-5736-11f0-baa5-92fbcf53809c.png

該圖片來源于 Github: Pushing Latency Boundaries: Optimizing DeepSeek-R1 Performance on NVIDIA Blackwell GPUs 一文,若您有任何疑問或需要使用該圖片,請聯(lián)系該文作者

現(xiàn)有的基于 CUTLASS 的稀疏專家模型流(如圖所示)將輸入的 token 分發(fā)到指定的專家模型,然后在每個專家模型的輸出上進行索引式的局部歸約,最后進行全局AllReduce。分發(fā)和索引局部歸約在低延遲場景下會產(chǎn)生高開銷。為解決此問題,我們提出將“稀疏專家模型作為 GEMM”處理,即將所有 token 發(fā)送至每個激活的專家模型,并在局部歸約前屏蔽不需要的輸出。由于分組 GEMM 受顯存限制,冗余 token 產(chǎn)生的額外計算開銷幾乎沒有影響,有效避免了昂貴的分發(fā),同時減少開銷。

4、重新平衡稀疏專家模型

稀疏專家模型常用的并行化策略有兩種:專家并行 (EP) 和張量并行 (TP)。專家并行 (EP) 將每個專家模型分配到獨立的 GPU,以此實現(xiàn)高顯存和計算效率。但 token 放置依賴于數(shù)據(jù),導致 GPU 間工作負載分布不均,并在 MoE 模塊后的 AllReduce 步驟中顯示額外開銷。張量并行 (TP) 將每個專家模型均勻劃分到多個 GPU,雖平衡了工作負載,但卻犧牲了數(shù)學 / 顯存效率。

  • 混合 ETP

結(jié)合 EP / TP 的混合方法可緩解上述問題。實驗結(jié)果表明,TP4EP2 配置在實際中表現(xiàn)最佳。

  • 智能路由器

另一方案是將所有專家模型權重存儲在由 4 個 GPU 組成的集群中,隨后將其復制到另一個 4 GPU 集群,智能路由器可將 token 動態(tài)地分配到各集群。該設計在不顯著影響本地顯存和計算效率的前提下,保持了工作負載分布的平衡。

二、內(nèi)核級優(yōu)化

1、注意力內(nèi)核

我們開發(fā)了定制的 MLA 注意力內(nèi)核,以便更好地使用 GPU 資源應對延遲場景。

2、分組 GEMM

  • CUTLASS 后端(默認后端)

我們的默認 MoE 后端基于 CUTLASS,該后端具有靈活性和穩(wěn)定性,但可能不是最佳的性能方案。

  • TensorRT-LLM 后端

另一個 MoE 后端是 TensorRT-LLM,其性能更優(yōu)。我們正在努力提高其靈活性和穩(wěn)定性,未來將作為延遲場景中分組 GEMM 計算的默認后端。

3、通信內(nèi)核

對于小規(guī)模消息,受常規(guī) NCCL 延遲影響的 AllReduce 內(nèi)核效率低下,為此我們開發(fā)了一款定制化的一次性 AllReduce 內(nèi)核。該內(nèi)核通過先模仿初始廣播,然后進行局部歸約的方式,利用 NVSwitch 的強大硬件能力在最小延遲場景中實現(xiàn)了更優(yōu)的性能。

4、密集 GEMM 優(yōu)化

我們重點優(yōu)化兩種密集 GEMM:Fuse_A_GEMM 和 RouterGEMM。因為這兩種 GEMM 占據(jù)了大部分執(zhí)行時間、顯存效率低下且難以分片(兩者均基于 DP)。

  • Fuse_A_GEMM

我們開發(fā)了一個定制的 Fuse_A_GEMM,通過將大部分權重預先載入到共享顯存(通過 PDL 實現(xiàn)并與 oneshot-AllReduce 重疊),大幅提升了性能。當 num_tokens < 16 時,該內(nèi)核性能較默認的 GEMM 實現(xiàn)有明顯提升。

1138d674-5736-11f0-baa5-92fbcf53809c.png

該圖片來源于 Github: Pushing Latency Boundaries: Optimizing DeepSeek-R1 Performance on NVIDIA Blackwell GPUs 一文,若您有任何疑問或需要使用該圖片,請聯(lián)系該文作者

  • RouterGEMM

我們通過使用內(nèi)部的 AI 代碼生成器,自動生成經(jīng)過優(yōu)化的 RouterGEMM 內(nèi)核。在 num_tokens ≤ 30 時,該內(nèi)核性能較默認的 GEMM 實現(xiàn)有顯著提升。

114fab38-5736-11f0-baa5-92fbcf53809c.png

該圖片來源于 Github: Pushing Latency Boundaries: Optimizing DeepSeek-R1 Performance on NVIDIA Blackwell GPUs 一文,若您有任何疑問或需要使用該圖片,請聯(lián)系該文作者

5、內(nèi)核融合

為了減少最小延遲場景中額外的全局顯存寫讀開銷,內(nèi)核融合必不可少。我們目前支持以下融合模式:

  • 將兩個重疊的 RMS_Norm 融合成一個 GroupedRMSNorm

  • 將 (LocalReduction) + AR + RMS_Norm + (Dynamic_Quant_BF16toNVFP4) 融合成一個內(nèi)核

  • 將 Grouped GEMM_FC1 + 點激活 (當 moe_backend=TRTLLM 時) 融合成一個內(nèi)核

如何復現(xiàn)

https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/blogs/Best_perf_practice_on_DeepSeek-R1_in_TensorRT-LLM.md#b200-min-latency

需要注意的是,寬松接受模式是 Deepseek-R1 模型的特有模式。若要啟用該模式,需在準備基準數(shù)據(jù)集時設置 add_generation_prompt = True,示例代碼如下:

input_ids= tokenizer.encode(tokenizer.apply_chat_template(msg, tokenize=False, add_generation_prompt=True), add_special_tokens=False)

還需在 speculative_config 中設置 use_relaxed_acceptance_for_thinking: true, relaxed_topk: 10 和 relaxed_delta: 0.6。

后續(xù)工作

  • 增加融合

  • 增加重疊

  • 增加對注意力內(nèi)核的優(yōu)化

  • 增加對 MTP 的研究

結(jié)語

在延遲敏感型應用中突破 DeepSeek R1 的性能極限是一項非凡的工程。本文詳細介紹的優(yōu)化措施是整個 AI 技術棧各個領域的協(xié)作成果,涵蓋了內(nèi)核級優(yōu)化、運行時增強、模型量化技術、算法改進以及系統(tǒng)性能分析與調(diào)優(yōu)。希望本文介紹的技術和最佳實踐,能夠幫助開發(fā)者社區(qū)在任務關鍵型 LLM 推理應用中更充分地發(fā)揮 NVIDIA GPU 的性能。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5589

    瀏覽量

    109702
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5192

    瀏覽量

    135407
  • 大模型
    +關注

    關注

    2

    文章

    3646

    瀏覽量

    5176
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1326
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3249

原文標題:突破延遲極限:在 NVIDIA Blackwell GPU 上優(yōu)化 DeepSeek-R1 的性能

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    百度騰訊搶灘布局!DeepSeek-R1升級和開源背后,國產(chǎn)AI的逆襲之路

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級,當前版本為DeepSeek-R1-0528。次日,DeepSeek-R1-05
    的頭像 發(fā)表于 06-03 06:34 ?6179次閱讀

    DeepSeek R1 MTPTensorRT-LLM的實現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理
    的頭像 發(fā)表于 08-30 15:47 ?4442次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b> MTP<b class='flag-5'>在</b>TensorRT-LLM<b class='flag-5'>中</b>的實現(xiàn)與<b class='flag-5'>優(yōu)化</b>

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    和自然語言推理等復雜任務。作為國產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術,全球人工智能領域引發(fā)廣泛關注。本文主要說明DeepSeek-R1
    的頭像 發(fā)表于 07-25 15:22 ?1364次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek-V3得到了優(yōu)化升級。DeepSeek-V3的發(fā)布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 緊接著,
    發(fā)表于 07-17 11:59

    Arm Neoverse N2平臺實現(xiàn)DeepSeek-R1滿血版部署

    頗具優(yōu)勢。Arm 攜手合作伙伴, Arm Neoverse N2 平臺上使用開源推理框架 llama.cpp 實現(xiàn) DeepSeek-R1 滿血版的部署,目前已可提供線上服務。
    的頭像 發(fā)表于 07-03 14:37 ?1234次閱讀
    Arm Neoverse N2平臺實現(xiàn)<b class='flag-5'>DeepSeek-R1</b>滿血版部署

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    、語言一致性),優(yōu)化模型在數(shù)學、編程等結(jié)構化任務的表現(xiàn)。 通用對齊RL:融入人類偏好獎勵模型,確保模型開放域任務的安全性與實用性。 Deep
    發(fā)表于 06-09 14:38

    【幸狐Omni3576邊緣計算套件試用體驗】CPU部署DeekSeek-R1模型(1B和7B)

    優(yōu)化:動態(tài)分配計算資源至關鍵token 中文優(yōu)化Wudao Corpus等中文數(shù)據(jù)集上強化訓練 技術突破: 相比傳統(tǒng)LLM,DeepSeek-R1通過以下創(chuàng)新實現(xiàn)低資源部署: Mo
    發(fā)表于 04-21 00:39

    如何基于Android 14i.MX95 EVK上運行Deepseek-R1-1.5B和性能

    本文檔總結(jié)了如何基于 Android 14 i.MX95 EVK 上運行 Deepseek-R1-1.5B 和性能1. Install Android 14 on i.MX95
    發(fā)表于 04-04 06:59

    DeepSeek到Qwen,AI大模型的移植與交互實戰(zhàn)指南-飛凌嵌入式

    不久前發(fā)布的《技術實戰(zhàn)|OK3588-C開發(fā)板上部署DeepSeek-R1大模型的完整指南》一文,小編為大家介紹了DeepSeek-R1
    的頭像 發(fā)表于 03-28 08:06 ?2805次閱讀
    從<b class='flag-5'>DeepSeek</b>到Qwen,AI大模型的移植與交互實戰(zhàn)指南-飛凌嵌入式

    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實測報告

    DeepSeek-R1 模型 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對短文本生成、長文本生成、總結(jié)概括三大實戰(zhàn)場景,會碰撞出怎樣的
    的頭像 發(fā)表于 03-17 11:12 ?3072次閱讀
    <b class='flag-5'>NVIDIA</b> RTX 5880 Ada顯卡部署<b class='flag-5'>DeepSeek-R1</b>模型實測報告

    如何使用OpenVINO運行DeepSeek-R1蒸餾模型

    DeepSeek-R1春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發(fā)的開源推理模型,用于解決需要邏輯推理、數(shù)學問題解決和實時決策的任務。
    的頭像 發(fā)表于 03-12 13:45 ?2369次閱讀
    如何使用OpenVINO運行<b class='flag-5'>DeepSeek-R1</b>蒸餾模型

    英特爾哪吒開發(fā)套件上部署DeepSeek-R1的實現(xiàn)方式

    隨著人工智能技術的快速發(fā)展,企業(yè)對 AI 模型的部署方式有了更多選擇。本地部署 DeepSeek-R1 模型具有以下顯著優(yōu)勢,使其成為許多企業(yè)和開發(fā)者的首選。
    的頭像 發(fā)表于 03-12 13:38 ?1113次閱讀
    <b class='flag-5'>在</b>英特爾哪吒開發(fā)套件上部署<b class='flag-5'>DeepSeek-R1</b>的實現(xiàn)方式

    DeepSeek-R1:別被它的光環(huán)迷了眼,這些能力局限你得知道!

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 最近,DeepSeek-R1 可是火遍了全網(wǎng),號稱“超越人類專家”,數(shù)學競賽奪冠、代碼能力碾壓人類開發(fā)者……聽起來是不是很厲害?但別急著被這些光環(huán)迷了眼
    的頭像 發(fā)表于 03-11 17:19 ?1028次閱讀
    <b class='flag-5'>DeepSeek-R1</b>:別被它的光環(huán)迷了眼,這些能力局限你得知道!

    MAC mini4 上使用 VSCode 和 Cline 插件對接 Deepseek-R1:32b 的完整指南

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 一,前言 Deepseek-R1:32b 是一款高性能的 AI 模型,適用于多種編程和開發(fā)任務。通過將其與 VSCode 和 Cline 插件結(jié)合,開發(fā)者
    的頭像 發(fā)表于 03-11 17:14 ?1732次閱讀
    <b class='flag-5'>在</b> MAC mini4 上使用 VSCode 和 Cline 插件對接 <b class='flag-5'>Deepseek-R1</b>:32b 的完整指南

    實戰(zhàn)案例 | 299元國產(chǎn)工業(yè)級AI核心板部署DeepSeek-R1

    前言:AIoT領域,搭載Ubuntu系統(tǒng)的眺望T527開發(fā)板,僅憑2GB內(nèi)存便成功運行15億參數(shù)的DeepSeek-R1輕量級大模型!邊緣端上演一場算力革命,這一突破性進展不僅刷新了邊緣AI設備
    的頭像 發(fā)表于 03-06 08:30 ?1437次閱讀
    實戰(zhàn)案例 | 299元國產(chǎn)工業(yè)級AI核心板部署<b class='flag-5'>DeepSeek-R1</b>