當(dāng)AI大模型參數(shù)規(guī)模邁入萬億級別,萬卡級超集群已成為前沿AI研發(fā)與應(yīng)用的核心載體。然而澎湃算力的背后,數(shù)據(jù)存算速度正成為關(guān)鍵瓶頸,存力的性能、擴(kuò)展性與協(xié)同效率,將直接決定算力價值的最終釋放。
面對萬億參數(shù)模型訓(xùn)練與推理需求,存力既要滿足數(shù)十TB/s、億級IOPS、亞ms級延遲的極致性能,更要實現(xiàn)存算深度協(xié)同。曙光存儲以“存算網(wǎng)強(qiáng)協(xié)同”為核心思路,憑借超級隧道、AI數(shù)據(jù)工廠兩大核心技術(shù)與全棧產(chǎn)品矩陣,推動從“存數(shù)據(jù)”向“喂數(shù)據(jù)”的存力范式革新。
超級隧道:極致性能的數(shù)據(jù)加速引擎
超級隧道技術(shù)是基于微控架構(gòu)實現(xiàn)的端到端數(shù)據(jù)通路,通過零中斷(擺脫OS干擾,時延極致穩(wěn)定)、零競爭(資源隔離高效,并發(fā)無內(nèi)耗)、零拷貝(數(shù)據(jù)直達(dá)目標(biāo),傳輸效率倍增),實現(xiàn)極低時延與超高并發(fā),適配AI超集群等高密度計算場景的需求。
該技術(shù)采用芯片、系統(tǒng)、AI應(yīng)用三級協(xié)同設(shè)計,突破架構(gòu)壁壘,讓數(shù)據(jù)傳輸路徑更短、效率更高。
芯片級:實現(xiàn)處理器、內(nèi)存、高速網(wǎng)絡(luò)與NVMe SSD的深度協(xié)同,打造多條數(shù)據(jù)直達(dá)通路;
系統(tǒng)級:通過均衡調(diào)度,將前端I/O精準(zhǔn)分配至最優(yōu)路徑,避免資源浪費(fèi);
應(yīng)用級:借助Burst Buffer與XDS技術(shù),讓數(shù)據(jù)直供GPU近側(cè)存儲,減少GPU空轉(zhuǎn),提升算力利用率。
基于三級協(xié)同,超級隧道技術(shù)可將2U24盤位NVMe全閃節(jié)點帶寬提升5.5倍,萬億參數(shù)模型Checkpoint從分鐘級縮至秒級;推理延遲降低76%,計算節(jié)點存儲訪問帶寬提升4倍。針對AI場景更實現(xiàn)推理時延降低80%、訓(xùn)練速度提升4倍,萬億參數(shù)模型訓(xùn)練周期縮短60%以上。
超級隧道尤其匹配AI應(yīng)用場景,可使推理時延降低80%,訓(xùn)練速度提升4倍,萬億參數(shù)模型訓(xùn)練周期壓縮60%以上。
AI數(shù)據(jù)工廠:全流程AI加速中樞
AI數(shù)據(jù)工廠打破存力與算力的物理邊界,通過AI應(yīng)用親和、AI數(shù)據(jù)加速兩大核心能力,讓存力平臺深度融入AI全業(yè)務(wù)流程,真正做到“以存代算、以存促算”,實現(xiàn)AI應(yīng)用全流程加速。
AI應(yīng)用親和通過KV Cache offload、多層數(shù)據(jù)分級等技術(shù),針對性優(yōu)化推理環(huán)節(jié),大幅提升用戶使用體驗;AI數(shù)據(jù)加速則在全球統(tǒng)一命名空間技術(shù)基礎(chǔ)上,整合多類型存儲資源,配合向量數(shù)據(jù)庫優(yōu)化、AI算子加速庫,實現(xiàn)高價值私域數(shù)據(jù)的token化自動生成,讓推理應(yīng)用更專業(yè)、更精準(zhǔn)。
從數(shù)據(jù)清洗標(biāo)注到模型訓(xùn)練、推理部署,AI數(shù)據(jù)工廠以更懂AI的存儲能力,打通數(shù)據(jù)流轉(zhuǎn)全鏈路,解決AI訓(xùn)練中的“數(shù)據(jù)饑餓”問題,讓每一份數(shù)據(jù)都能高效轉(zhuǎn)化為算力產(chǎn)出。
產(chǎn)品矩陣:精準(zhǔn)匹配算力需求
依托全棧自研技術(shù)與全國產(chǎn)芯片生態(tài),曙光存儲打造了覆蓋集中式全閃、分布式全閃與混閃的完整產(chǎn)品矩陣,以極致性能和高可靠性,精準(zhǔn)匹配智算集群發(fā)展過程中的多樣化需求。
ParaStor F9000分布式全閃:以刷新世界紀(jì)錄146%的成績登頂IO500 10節(jié)點榜單,220GB/s單節(jié)點帶寬、800萬IOPS,可為十萬卡集群提供數(shù)十TB/s訪問帶寬,是大規(guī)模智算集群性能核心。
FlashNexus集中式全閃:在被譽(yù)為“存儲界奧斯卡”的SPC-1測試中,以3000萬IOPS、0.202ms時延,刷新全球記錄,性能提升30%,四控緊耦合架構(gòu),超2億IOPS,滿足極端性能需求。
分布式混閃S6000:4U74盤位高密設(shè)計,空間密度提升70%,兼顧性能與成本,成為EB級存力平臺的理想選擇。
從自主創(chuàng)新技術(shù)到高適配產(chǎn)品矩陣,曙光存儲以“存算傳緊耦合”架構(gòu)破解高密算力下的數(shù)據(jù)吞吐、擴(kuò)展與協(xié)同難題,不僅成為曙光scaleX萬卡超集群的核心存力支撐,更彰顯了中國存儲技術(shù)在全球超高密度算力場景中的領(lǐng)先實力。
-
AI
+關(guān)注
關(guān)注
91文章
39666瀏覽量
301274 -
中科曙光
+關(guān)注
關(guān)注
5文章
493瀏覽量
18907 -
大模型
+關(guān)注
關(guān)注
2文章
3644瀏覽量
5173
原文標(biāo)題:特寫|萬卡時代:算得快,更要存得穩(wěn)
文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
曙光存儲兩大核心技術(shù)與全棧產(chǎn)品矩陣推動存力范式革新
評論