91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

壁仞科技支持DeepSeek-V3滿血版訓練推理

壁仞科技Birentech ? 來源:壁仞科技Birentech ? 2025-03-04 14:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統(tǒng)參考架構,再次引發(fā)行業(yè)震動,但目前尚未開源DeepSeek-V3 滿血版完整訓練代碼。壁仞科技憑借八大自主創(chuàng)新技術,實現(xiàn)DeepSeek-V3滿血版在國產(chǎn)GPU平臺的高效全棧式訓練與推理,實現(xiàn)國產(chǎn)大模型與國產(chǎn)GPU的深度融合優(yōu)化,開啟國產(chǎn)算力新篇章。

01.首個國產(chǎn)化Megatron-LM

深度適配方案

DeepSeek業(yè)界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性,但并未開放訓練代碼,且Megatron-LM初期也未支持DeepSeek-V3。壁仞科技充分利用自研的Megatron-LM-BR插件、訓練框架BR-PyTorch以及高性能加速庫suDNN、suBLAS、suCCL等,在Megatron-LM框架上率先支持了這些新特性。針對DeepSeek-V3預訓練,壁仞支持四大并行策略(TP/EP/PP/DP)靈活組合,較原生方案(TP1PP16EP64DP2)更容易適應不同規(guī)模節(jié)點的靈活擴展。實現(xiàn)"Attention-MoE異構TP"技術,大幅降低了Attention顯存需求。

02.突破海外GPU高度依賴,

實現(xiàn)關鍵技術國產(chǎn)替代

DeepSeek基于海外GPU做了大量算法和軟硬件協(xié)同優(yōu)化,其實現(xiàn)高度依賴海外GPU微架構、NVLink互連、IB交換機等?;谧匝蠦IREN大算力TCore、高速互連BLink等技術,壁仞科技在DeepSeek開源周之前就已經(jīng)實現(xiàn)了FlashMLA、DeepGEMM、DeepEP等核心模塊類似功能和優(yōu)化技術,并進行了軟硬協(xié)同深度優(yōu)化,端到端打通了訓練全流程,實現(xiàn)了關鍵技術的國產(chǎn)自主可控。

03.業(yè)界首創(chuàng)顯存優(yōu)化雙擎技術,

實現(xiàn)滿血版高效訓練

DeepSeek-V3滿血版有671B參數(shù),官方推薦方案至少需要1024個H800(TP1PP16EP64DP1)才能進行全參訓練。為了應對顯存挑戰(zhàn),壁仞科技自主創(chuàng)新Async Offload、GPU-based Chunk Optimizer等精度無損的顯存優(yōu)化技術,將大量激活值及優(yōu)化器狀態(tài)異步卸載至CPU內(nèi)存,實現(xiàn)僅需4096GB顯存(8-16臺單機8卡GPU機器)即可支持DeepSeek-V3全參高效訓練。與此同時,通過巧妙地重疊計算與通信,上述顯存優(yōu)化技術幾乎沒有帶來訓練性能的損失。另外支持智能重計算策略,自動識別顯存瓶頸層,實現(xiàn)"算力換空間"智能決策。通過Async Offload和重計算顯存優(yōu)化雙擎技術,實現(xiàn)算力開銷和顯存節(jié)約的最佳均衡。

04.業(yè)界首創(chuàng)"虛擬層+動態(tài)重排"技術,

大幅降低流水線氣泡

DeepSeek的DualPipe技術能掩蓋部分傳輸開銷及大幅降低流水線氣泡,但DualPipe需要GPU微架構層面對計算單元進行精確控制才能實現(xiàn)計算和通信的高效并發(fā),相比1F1B,DualPipe需要增加1倍的模型權重及部分激活值顯存消耗。相比1F1B,Interleave with Virtual Pipeline技術可以在不增加顯存消耗的情況下大幅降低流水線氣泡,但是要求每個PP Stage的layer數(shù)是均衡的。DeepSeek-V3有61個Layer,PP8/PP16都無法均衡切分Layer導致無法使能Virtual Pipeline,壁仞科技業(yè)界首創(chuàng)"虛擬層+動態(tài)重排"技術,通過插入3個虛擬層實現(xiàn)64層均勻切分,重排部分層實現(xiàn)負載均衡,避免流水線等待,最終實現(xiàn)高效PP并行。

05.融合算子加速體系,

釋放國產(chǎn)GPU性能潛力

針對DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等關鍵耗時算子,壁仞科技基于其GPU架構特點做了極致的圖算/通算融合優(yōu)化,從多計算操作極致的片上融合,張量處理器與矢量處理器極致異步融合,多級緩存的流水融合,到計算與通信融合,并進一步引入自動化的Kernel Selection技術,基于硬件計算/通信/訪存建模的CostModel針對不同工作負載自適應選擇最優(yōu)內(nèi)核實現(xiàn),將芯片綜合能效發(fā)揮到極致。

06.整合關鍵技術模塊,實現(xiàn)DeepSeek-

V3滿血版端到端高效預訓練

壁仞科技壁礪TM系列產(chǎn)品如壁礪TM106M、106B等產(chǎn)品具備高算力、高能效、高通用性等優(yōu)勢,訓推一體,已在多個行業(yè)完成大規(guī)模商業(yè)化落地,其中在中國電信落地了國內(nèi)少有的真正實現(xiàn)市場化建設和運營的國產(chǎn)千卡集群,連續(xù)訓練30天不中斷,斷點續(xù)訓小于5分鐘,支持客戶完成大模型訓練,穩(wěn)定性、性能、精度各項指標達到客戶要求。此次基于壁礪TM106系列產(chǎn)品,壁仞科技快速高效完成了DeepSeek-V3各項關鍵技術落地,基于RedPajama-Data-1T-Sample主流開源數(shù)據(jù)集實現(xiàn)了端到端高效預訓練,Loss收斂正常。

07.實現(xiàn)W4A16細粒度量化技術,支持

DeepSeek-V3/R1滿血版高效推理

壁仞科技在此前已經(jīng)支持了BF16、INT8等版本的DeepSeek-V3/R1滿血版推理,此次新提出W4A16等細粒度混合量化技術,進一步降低了處理延時,提升了總吞吐。另外針對DeepSeek官方最新發(fā)布的推理系統(tǒng)參考架構,壁仞科技已初步實現(xiàn)了分布式EP以及PD分離架構,將進一步提供更高性價比的推理集群解決方案。

08.One More Thing

業(yè)界首創(chuàng)大模型彈性訓推一體架構,

實現(xiàn)集群最佳利用效率

DeepSeek 開放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系統(tǒng)參考方案,為行業(yè)展示了如何實現(xiàn)高性能、低成本的分布式推理集群。其提到“由于白天的服務負荷高,晚上的服務負荷低,因此我們實現(xiàn)了一套機制,在白天負荷高的時候,用所有節(jié)點部署推理服務。晚上負荷低的時候,減少推理節(jié)點,以用來做研究和訓練”,在計算推理成本時,其將釋放給訓練使用的資源排除在外,因此降低了推理成本(大概20%= 100% - 226節(jié)點/278節(jié)點)。但如何實現(xiàn)訓練和推理任務高效共享資源呢?

此前在落地千卡集群時,壁仞科技已業(yè)界首創(chuàng)了大模型3D并行訓練任務自動彈性伸縮機制,可以在大模型訓練任務不中斷的情況下,根據(jù)集群的資源情況自動進行在線擴縮容。根據(jù)業(yè)務流量情況自動進行削峰填谷,對大模型推理服務進行實例縮容、擴容,相應的訓練任務則自動進行擴容、縮容。通過這套彈性訓推一體架構,可以將集群資源的使用率保持在近100%,大幅降低資源空閑浪費成本。

壁仞科技打造了軟硬一體、全棧優(yōu)化、異構協(xié)同、開源開放的大規(guī)模智算集群全棧解決方案,憑借其技術創(chuàng)新能力和商業(yè)化落地成果,先后獲得環(huán)球時報新質(zhì)生產(chǎn)力產(chǎn)業(yè)實踐“人工智能”示范標桿等多個權威技術獎項,技術方案和產(chǎn)品已在運營商、智算中心、行業(yè)AI、金融、電力等多個行業(yè)規(guī)模落地。此次通過八大核心技術賦能DeepSeek-V3滿血版全棧式訓練推理,進一步提升壁仞科技軟硬一體、開箱即用的產(chǎn)品實力,支持客戶利用好DeepSeek的新質(zhì)生產(chǎn)力實現(xiàn)業(yè)務創(chuàng)新落地!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135427
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46125
  • 壁仞科技
    +關注

    關注

    1

    文章

    83

    瀏覽量

    4008
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3255

原文標題:【智算新突破】壁仞科技八大核心技術賦能DeepSeek-V3滿血版全棧式訓練和推理

文章出處:【微信號:Birentech,微信公眾號:壁仞科技Birentech】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    科技礪166M產(chǎn)品適配模思智能MOSS-TTS Family模型

    MOSS-TTS模型的高性能推理部署。作為國內(nèi)領軍的通用GPU芯片企業(yè),科技成為首家完成MOSS-TTS模型適配的國產(chǎn)算力廠商。
    的頭像 發(fā)表于 02-11 16:54 ?1201次閱讀

    科技在香港聯(lián)合交易所掛牌上市

    1月2日,科技在香港聯(lián)合交易所掛牌上市,股票代碼為06082.HK。作為港股2026年首只上市新股,科技發(fā)行價19.60港元,募資規(guī)模55.83億港元。此次成功登陸港交所,
    的頭像 發(fā)表于 01-05 15:45 ?2087次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構、訓練框架、推理階段優(yōu)化、后訓練優(yōu)化等關鍵技術 第四章關于
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優(yōu)化、后訓練優(yōu)化等關鍵技術。從混合專家模型(MoE)的起源與發(fā)展,到 DeepSeek-
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    Arm Neoverse N2平臺實現(xiàn)DeepSeek-R1滿血版部署

    今年年初,開源大語言模型 (LLM) DeepSeek 在國內(nèi)外人工智能 (AI) LLM 領域掀起熱議。它在模型架構和訓練、推理方法上實現(xiàn)創(chuàng)新,在性能和工程效率上帶來了顯著提升,并在成本效率方面
    的頭像 發(fā)表于 07-03 14:37 ?1238次閱讀
    Arm Neoverse N2平臺實現(xiàn)<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>滿血</b>版部署

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    DeepSeek-V3 的發(fā)布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后
    發(fā)表于 06-09 14:38

    科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,科技宣布完成旗艦版Qwen3-235B-A22B模型的訓練
    的頭像 發(fā)表于 05-16 16:23 ?978次閱讀

    科技完成阿里巴巴通義千問Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),
    的頭像 發(fā)表于 04-30 15:19 ?1582次閱讀

    科大訊飛深度解析DeepSeek-V3/R1推理系統(tǒng)成本

    本篇分析來自科大訊飛技術團隊,深度解析了DeepSeek-V3 / R1 推理系統(tǒng)成本,旨在助力開發(fā)者實現(xiàn)高性價比的MoE集群部署方案。感謝訊飛研究院副院長&AI工程院常務副院長龍明康、AI工程院AI云平臺研發(fā)部總監(jiān)李珍松、訊飛星辰MaaS團隊的研究對本文的貢獻。
    的頭像 發(fā)表于 04-15 13:46 ?4028次閱讀
    科大訊飛深度解析<b class='flag-5'>DeepSeek-V3</b>/R1<b class='flag-5'>推理</b>系統(tǒng)成本

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    近日,DeepSeek正式發(fā)布了其大語言模型的全新小版本迭代——DeepSeek-V3-0324,這一版本在推理能力、代碼生成、中文寫作以及搜索能力等多個維度實現(xiàn)了顯著提升。憑借其先進的MUSA
    的頭像 發(fā)表于 03-31 11:34 ?1274次閱讀
    摩爾線程GPU成功適配<b class='flag-5'>Deepseek-V3</b>-0324大模型

    DeepSeek在昇騰上的模型部署的常見問題及解決方案

    2024年12月26日,DeepSeek-V3橫空出世,以其卓越性能備受矚目。該模型發(fā)布即支持昇騰,用戶可在昇騰硬件和MindIE推理引擎上實現(xiàn)高效推理,但在實際操作中,部署流程與常見
    的頭像 發(fā)表于 03-25 16:53 ?2406次閱讀
    <b class='flag-5'>DeepSeek</b>在昇騰上的模型部署的常見問題及解決方案

    沐曦加速DeepSeek滿血版單卡C500異構推理

    近日,基于開源KTransformers架構的 CPU/GPU 異構推理能力,沐曦在曦云C500單卡GPU上成功實現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績,相比社區(qū)官方數(shù)據(jù)提升2
    的頭像 發(fā)表于 03-20 15:52 ?2233次閱讀

    科技推出阿里QWQ-32B大模型一體機

    3月6日,國產(chǎn)大模型領域再次迎來重大突破:阿里正式發(fā)布 32B 推理模型 QwQ-32B,根據(jù)Qwen公布的基準測試數(shù)據(jù),QwQ-32B性能可媲美DeepSeek-R1,在數(shù)學推理、編
    的頭像 發(fā)表于 03-10 09:05 ?1860次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技推出阿里QWQ-32B大模型一體機

    HarmonyOS NEXT開發(fā)實戰(zhàn):DevEco Studio中DeepSeek的使用

    /completions; 點擊Body將model修改為deepseek-chat(對應DeepSeek-V3)或者deepseek-reasoner(對應DeepSeek-R1)
    發(fā)表于 03-07 14:56