日韩无码精品再线,簧片免费网站网页,亚洲AV综合AV东京热三区

2025年初，DeepSeek-V3與DeepSeek-R1推理模型的開(kāi)源引爆了AI社區(qū)，這兩款產(chǎn)品作為通用千億級(jí)模型與專用推理優(yōu)化模型，為全球AI技術(shù)生態(tài)帶來(lái)重大變革，不僅展示了中國(guó)AGI技術(shù)的突破性進(jìn)展，而且開(kāi)源模型發(fā)展帶來(lái)部署成本的極速下降，為定制化AGI服務(wù)，推理本地化部署，帶來(lái)發(fā)展機(jī)遇，也掀起了新的一輪智算基礎(chǔ)設(shè)施建設(shè)浪潮。

與按Token生成數(shù)量計(jì)費(fèi)的AI云服務(wù)模式不同，出于數(shù)據(jù)安全的考慮，很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當(dāng)前業(yè)務(wù)流中。由于整個(gè)推理應(yīng)用的業(yè)務(wù)鏈條非常長(zhǎng)，本地化部署需要綜合考慮如下各個(gè)方面與需求的匹配度：

硬件與基礎(chǔ)設(shè)施規(guī)劃：包括GPU與專用芯片選型、網(wǎng)絡(luò)架構(gòu)優(yōu)化與隔離、存儲(chǔ)方案評(píng)估

模型優(yōu)化與部署策略：包括量化壓縮等推理加速技術(shù)選型、資源動(dòng)態(tài)調(diào)度技術(shù)等

安全與合規(guī)性：需要綜合考慮數(shù)據(jù)使用的便捷性與合規(guī)要求

高可用與容災(zāi)設(shè)計(jì)：包括故障自愈方案、數(shù)據(jù)備份等

成本控制：根據(jù)業(yè)務(wù)使用模式合理制定需求規(guī)格，嚴(yán)控成本

為了更好地服務(wù)客戶完成本地化推理集群的選型與部署工作，近期中科馭數(shù)作為國(guó)內(nèi)AI網(wǎng)絡(luò)的頭部DPU芯片產(chǎn)品供應(yīng)商，從網(wǎng)絡(luò)選型對(duì)推理集群性能影響的角度出發(fā)，設(shè)計(jì)與執(zhí)行了一系列實(shí)驗(yàn)并收集了翔實(shí)的一手材料數(shù)據(jù)。

本實(shí)驗(yàn)環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎(chǔ)模型，基于vLLM搭建了推理集群，并采用evalscope對(duì)推理效果完成了評(píng)估。本次時(shí)延共使用了兩臺(tái)雙GPU服務(wù)器，服務(wù)器基本配置如下：

首先，我們關(guān)注采用TCP方式作為底層推理網(wǎng)絡(luò)基礎(chǔ)時(shí)，進(jìn)行了如下測(cè)試：

當(dāng)采用2TP+2PP的模型切割方式時(shí)，獲得了如下基礎(chǔ)數(shù)據(jù)：

隨后切換到4TP+1PP模型切割模式，加大了不同節(jié)點(diǎn)間的矩陣數(shù)據(jù)交換需求，得到如下數(shù)據(jù):

為了更好的體現(xiàn)測(cè)試數(shù)據(jù)的公平性，本測(cè)試隨后選擇行業(yè)領(lǐng)導(dǎo)企業(yè)的成熟網(wǎng)卡產(chǎn)品進(jìn)行了實(shí)驗(yàn)，得出了基本一致的數(shù)據(jù)測(cè)試結(jié)果。并且在TCP模式下，中科馭數(shù)FlexFlow-2200T設(shè)備基本達(dá)到了與國(guó)際一線廠商相同的能力水平。

隨后，本實(shí)驗(yàn)將底層基礎(chǔ)網(wǎng)絡(luò)技術(shù)切換為RDMA網(wǎng)絡(luò)，進(jìn)行了測(cè)試驗(yàn)證并收集到如下數(shù)據(jù)：

通過(guò)對(duì)比可以得知在模型進(jìn)行良好切分設(shè)計(jì)的情況下，RDMA網(wǎng)絡(luò)并未能提升整體推理性能，但是在節(jié)點(diǎn)間需要傳遞張量數(shù)據(jù)的情況下，RDMA網(wǎng)絡(luò)可大幅提升模型推理性能，同時(shí)在大并發(fā)規(guī)模時(shí)，能夠更好的保持推理集群的服務(wù)穩(wěn)定性。

通過(guò)一系列的實(shí)驗(yàn)結(jié)果，我們可以得出如下結(jié)論：

一、良好的模型切分設(shè)計(jì)可以大幅提升模型性能，此時(shí)無(wú)需引入復(fù)雜的RDMA網(wǎng)絡(luò)運(yùn)維，即可獲得最佳的推理性能體驗(yàn)，從而獲得最高的投入產(chǎn)出比。

二、在單臺(tái)服務(wù)器GPU算力受限，不得不在節(jié)點(diǎn)間進(jìn)行張量切分時(shí)，可以使用RDMA網(wǎng)絡(luò)保證推理模型的服務(wù)性能與穩(wěn)定性。但是引入RDMA帶來(lái)性能提升的同時(shí)，成本的提升比例也是一致的。大家可以按照實(shí)際應(yīng)用場(chǎng)景，考慮多方因素后綜合選擇。

中科馭數(shù)的作為國(guó)內(nèi)全品種網(wǎng)卡的研發(fā)企業(yè)，基于全自研、國(guó)產(chǎn)芯片K2-Pro打造的FlexFlow-2200T網(wǎng)卡，可以承擔(dān)智算大模型的網(wǎng)絡(luò)底座，為您的智算模型增加一顆“中國(guó)芯”。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴