91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R1滿血版部署

Arm社區(qū) ? 來源:Arm社區(qū) ? 2025-07-03 14:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今年年初,開源大語言模型 (LLM) DeepSeek 在國(guó)內(nèi)外人工智能 (AI) LLM 領(lǐng)域掀起熱議。它在模型架構(gòu)和訓(xùn)練、推理方法上實(shí)現(xiàn)創(chuàng)新,在性能和工程效率上帶來了顯著提升,并在成本效率方面頗具優(yōu)勢(shì)。Arm 攜手合作伙伴,在 Arm Neoverse N2 平臺(tái)上使用開源推理框架 llama.cpp 實(shí)現(xiàn) DeepSeek-R1 滿血版的部署,目前已可提供線上服務(wù)。

在基于 Neoverse N2 平臺(tái)設(shè)計(jì)的服務(wù)器級(jí) CPU 上,通過對(duì)軟硬件架構(gòu)的合理適配,以及出色調(diào)優(yōu)來充分發(fā)揮平臺(tái)的計(jì)算能力和內(nèi)存帶寬,能夠以 INT8 的量化版本提供業(yè)界可用的詞元 (token) 生成速度,并以更具競(jìng)爭(zhēng)力的性價(jià)比為中小微企業(yè)提供業(yè)界頂尖的 LLM 服務(wù)。

在部署 DeepSeek 大模型過程中,Arm 結(jié)合底層架構(gòu)特性進(jìn)行了深度優(yōu)化:模型本身跨多 ?NUMA(非統(tǒng)一內(nèi)存訪問)節(jié)點(diǎn)以交錯(cuò) (interleave) 方式加載,以便充分利用所有內(nèi)存帶寬;除 INT8 量化外,通過開啟 KV 量化,以及激活 Flash Attention 機(jī)制,以此進(jìn)一步降低計(jì)算量和壓縮內(nèi)存占用。通過技術(shù)團(tuán)隊(duì)的努力,DeepSeek 滿血版的整體性能相較優(yōu)化前提升了 67%。工程團(tuán)隊(duì)后續(xù)也會(huì)持續(xù)投入,提高多節(jié)點(diǎn)上的計(jì)算并發(fā)度及帶寬利用率,并通過開發(fā)者社區(qū)不斷完善 Arm 架構(gòu)的軟件生態(tài)。

細(xì)究 DeepSeek 的模型架構(gòu)創(chuàng)新,它針對(duì)大模型運(yùn)行時(shí)的痛點(diǎn)進(jìn)行計(jì)算、內(nèi)存訪問和算法流水線上的效率提升,比如 MLA 和 FP8 訓(xùn)練和推理減少了內(nèi)存占用和帶寬需求,DeepSeekMoE 降低了計(jì)算強(qiáng)度、提高計(jì)算效率,DualPipe 提高了多計(jì)算節(jié)點(diǎn)間的通信和計(jì)算效率。這些工程優(yōu)化思維與 Arm 一貫倡導(dǎo)的高能效設(shè)計(jì)目標(biāo)不謀而合,也使得在純 CPU 平臺(tái)上運(yùn)行如此大規(guī)模的模型成為可能。

Arm 平臺(tái)致力于助力合作伙伴提高性能,并降低總體擁有成本 (TCO),在 Neoverse N2 平臺(tái)運(yùn)行 DeepSeek 大模型推理也淋漓盡致地體現(xiàn)了這一原則。在為中小微企業(yè)提供大模型服務(wù)時(shí),并發(fā)需求降低,成本敏感度提高。在基于 Neoverse N2 平臺(tái)上運(yùn)行的 DeepSeek-R1 為他們提供了一個(gè)更為均衡的選擇。相較傳統(tǒng)多卡 GPU/加速器平臺(tái),這能極大地降低訂閱服務(wù)成本,使用戶能以較低代價(jià)快速啟動(dòng)業(yè)務(wù)部署。下圖是兩種方案訂閱服務(wù)的價(jià)格對(duì)比:

826368a6-532f-11f0-b715-92fbcf53809c.png

搭載 Neoverse N2 平臺(tái)的服務(wù)器平臺(tái)能把部署成本降低約八倍。此外,對(duì)數(shù)據(jù)中心來說,在 CPU 上部署 LLM 也能充分利用在線的空閑算力,提高整體資源利用率。與此同時(shí),基于 Neoverse N2 平臺(tái)的服務(wù)器功耗僅為傳統(tǒng)八卡 GPU 服務(wù)器的 1/12,能極大地降低數(shù)據(jù)中心的能耗壓力。

如此大規(guī)模的模型(6,710億參數(shù))能夠在數(shù)據(jù)中心服務(wù)器級(jí) CPU 上運(yùn)行,并迅速上線為客戶提供快速部署,得益于 Neoverse 平臺(tái)對(duì) AI 推理負(fù)載的一貫思考和設(shè)計(jì),包括 2 x 128 位的可伸縮向量擴(kuò)展 (SVE2) 特性、BF16/INT8 數(shù)據(jù)格式支持,以及點(diǎn)積和矩陣乘法等指令的支持,加之多通道高帶寬內(nèi)存配置,和低延遲 CMN 互聯(lián)等等。

隨著 AI 領(lǐng)域的飛速發(fā)展,LLM 在持續(xù)的工程創(chuàng)新和優(yōu)化之下應(yīng)用領(lǐng)域不斷變廣。Arm 將持續(xù)通過 Neoverse 平臺(tái)為行業(yè)賦能,并在這一新的技術(shù)紀(jì)元中引領(lǐng)變革。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9552

    瀏覽量

    391843
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265284
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3257

原文標(biāo)題:在 Arm Neoverse N2 平臺(tái)上以更優(yōu)成本、更低功耗,充分釋放 DeepSeek-R1 滿血版性能

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    百度騰訊搶灘布局!DeepSeek-R1升級(jí)和開源背后,國(guó)產(chǎn)AI的逆襲之路

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級(jí),當(dāng)前版本為DeepSeek-R1-0528。次日,DeepSeek-R1-05
    的頭像 發(fā)表于 06-03 06:34 ?6186次閱讀

    如何在Arm Neoverse N2平臺(tái)上提升llama.cpp擴(kuò)展性能

    跨 NUMA 內(nèi)存訪問可能會(huì)限制 llama.cpp 在 Arm Neoverse 平臺(tái)上的擴(kuò)展能力。本文將為你詳細(xì)分析這一問題,并通過引入原型驗(yàn)證補(bǔ)丁來加以解決。測(cè)試結(jié)果表明,在基于 Neo
    的頭像 發(fā)表于 02-11 10:06 ?165次閱讀

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4447次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b> MTP在TensorRT-LLM中的<b class='flag-5'>實(shí)現(xiàn)</b>與優(yōu)化

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡(jiǎn)介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。DeepSeek-R1采用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,旨在提升推理能力,尤其擅
    的頭像 發(fā)表于 07-25 15:22 ?1372次閱讀
    速看!EASY-EAI教你離線<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型
    的頭像 發(fā)表于 05-13 17:07 ?1638次閱讀
    瑞薩RZ/V<b class='flag-5'>2</b>H<b class='flag-5'>平臺(tái)</b>支持<b class='flag-5'>部署</b>離線版<b class='flag-5'>DeepSeek</b> -<b class='flag-5'>R1</b>大語言模型

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】CPU部署DeekSeek-R1模型(1B和7B)

    優(yōu)化:動(dòng)態(tài)分配計(jì)算資源至關(guān)鍵token 中文優(yōu)化:在Wudao Corpus等中文數(shù)據(jù)集上強(qiáng)化訓(xùn)練 技術(shù)突破: 相比傳統(tǒng)LLM,DeepSeek-R1通過以下創(chuàng)新實(shí)現(xiàn)低資源部署: MoE架構(gòu):專家混合層
    發(fā)表于 04-21 00:39

    ORinNano離線部署Deepseek R1大模型教程

    ORinNano離線部署Deepseek R1大模型教程
    的頭像 發(fā)表于 04-10 15:32 ?1345次閱讀
    ORinNano離線<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型教程

    南京市政務(wù)云基于華為云Stack成功部署DeepSeek滿血版大模型

    近期,南京市政務(wù)云基于華為云Stack成功部署上線滿血DeepSeek-R1-671B,實(shí)現(xiàn)了“南京+DeepSeek
    的頭像 發(fā)表于 03-31 09:30 ?1005次閱讀

    香橙派發(fā)布OrangePi RV2本地部署Deepseek-R1蒸餾模型指南

    繼香橙派昇騰系列產(chǎn)品、OrangePi5系列產(chǎn)品完成與DeepSeek模型的深度適配之后,香橙派日前官方發(fā)布OrangePiRV2運(yùn)行Deepseek-R1蒸餾模型實(shí)操指南。OrangePiRV
    的頭像 發(fā)表于 03-28 11:55 ?1697次閱讀
    香橙派發(fā)布OrangePi RV<b class='flag-5'>2</b>本地<b class='flag-5'>部署</b><b class='flag-5'>Deepseek-R1</b>蒸餾模型指南

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】DeepSeek 部署及測(cè)試

    /DeepSeek-R1-Distill-Qwen-1.5B_Demo/Readme.md 文檔)即可實(shí)現(xiàn) DeepSeek 部署。 這里使用瑞芯微轉(zhuǎn)換好的 rkllm 進(jìn)行推演。 倉(cāng)
    發(fā)表于 03-21 19:31

    如何使用OpenVINO運(yùn)行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發(fā)的開源推理模型,用于解決需要邏輯推理、數(shù)學(xué)問題解決和實(shí)時(shí)決策的任務(wù)。
    的頭像 發(fā)表于 03-12 13:45 ?2375次閱讀
    如何使用OpenVINO運(yùn)行<b class='flag-5'>DeepSeek-R1</b>蒸餾模型

    在英特爾哪吒開發(fā)套件上部署DeepSeek-R1實(shí)現(xiàn)方式

    隨著人工智能技術(shù)的快速發(fā)展,企業(yè)對(duì) AI 模型的部署方式有了更多選擇。本地部署 DeepSeek-R1 模型具有以下顯著優(yōu)勢(shì),使其成為許多企業(yè)和開發(fā)者的首選。
    的頭像 發(fā)表于 03-12 13:38 ?1117次閱讀
    在英特爾哪吒開發(fā)套件上<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>的<b class='flag-5'>實(shí)現(xiàn)</b>方式

    DeepSeek-R1:別被它的光環(huán)迷了眼,這些能力局限你得知道!

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 最近,DeepSeek-R1 可是火遍了全網(wǎng),號(hào)稱“超越人類專家”,數(shù)學(xué)競(jìng)賽奪冠、代碼能力碾壓人類開發(fā)者……聽起來是不是很厲害?但別急著被這些光環(huán)迷了眼
    的頭像 發(fā)表于 03-11 17:19 ?1031次閱讀
    <b class='flag-5'>DeepSeek-R1</b>:別被它的光環(huán)迷了眼,這些能力局限你得知道!

    企業(yè)上云不再難!DeepSeek 滿血R1-671B 來助跑

    ABSTRACT摘要捷智算平臺(tái)重磅推出DeepSeek滿血R1-671B企業(yè)云端私有化部署解決方案,為開發(fā)者提供一站式AI模型
    的頭像 發(fā)表于 03-07 19:28 ?1071次閱讀
    企業(yè)上云不再難!<b class='flag-5'>DeepSeek</b> <b class='flag-5'>滿血</b>版<b class='flag-5'>R1</b>-671B 來助跑

    實(shí)戰(zhàn)案例 | 299元國(guó)產(chǎn)工業(yè)級(jí)AI核心板部署DeepSeek-R1

    前言:在AIoT領(lǐng)域,搭載Ubuntu系統(tǒng)的眺望T527開發(fā)板,僅憑2GB內(nèi)存便成功運(yùn)行15億參數(shù)的DeepSeek-R1輕量級(jí)大模型!在邊緣端上演一場(chǎng)算力革命,這一突破性進(jìn)展不僅刷新了邊緣AI設(shè)備
    的頭像 發(fā)表于 03-06 08:30 ?1442次閱讀
    實(shí)戰(zhàn)案例 | 299元國(guó)產(chǎn)工業(yè)級(jí)AI核心板<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>