邁入人工智能 (AI) 時(shí)代,系統(tǒng)性能越來(lái)越多地受到功耗、散熱、內(nèi)存帶寬和數(shù)據(jù)傳輸?shù)榷嘀匾蛩刂萍s,而且影響所有計(jì)算場(chǎng)景,從千兆瓦級(jí)超大規(guī)模數(shù)據(jù)中心到毫瓦級(jí)邊緣設(shè)備,無(wú)一例外。
正如Futurum 的報(bào)告《Arm 處于 AI 和數(shù)據(jù)中心變革的中心》中所述:“AI 并非單一工作負(fù)載,也不存在單一理想化的基礎(chǔ)設(shè)施。相反,AI 是一系列工作負(fù)載的集合,需要一套連貫的策略,兼顧成本效益與性能,滿足多樣化需求?!?/p>
代理式 AI 的興起,進(jìn)一步催生了上述需求。此類模型不再僅對(duì)單條提示詞做出響應(yīng),而是以多個(gè)自主智能體的協(xié)作運(yùn)行,完成規(guī)劃、推理并執(zhí)行各類任務(wù)。與孤立的推理調(diào)用不同,代理式 AI 系統(tǒng)會(huì)生成持續(xù)的工作流,涉及內(nèi)存檢索、工具調(diào)用、跨模型與跨服務(wù)協(xié)同調(diào)度,對(duì)算力、內(nèi)存帶寬和系統(tǒng)編排提出源源不斷的要求。
在這一趨勢(shì)的影響下,計(jì)算基礎(chǔ)設(shè)施的設(shè)計(jì)思路正在發(fā)生根本性轉(zhuǎn)變。AI 系統(tǒng)不再是各種芯片的簡(jiǎn)單堆砌,而是形成一體化的整體,CPU、加速器、內(nèi)存與網(wǎng)絡(luò)組件全都協(xié)同運(yùn)行。由此,系統(tǒng)級(jí)智能如今已成為決定芯片性能、能效與可擴(kuò)展性的重中之重。
追求可持續(xù)的系統(tǒng)級(jí)表現(xiàn),而非不計(jì)成本的極致性能
在現(xiàn)代 AI 數(shù)據(jù)中心的建設(shè)中,客戶不再單純選購(gòu)“最強(qiáng) CPU”或“最快加速器”,而是著重于優(yōu)化機(jī)架能效,重點(diǎn)關(guān)注每瓦性能,尤其看重在持續(xù)、真實(shí)工作負(fù)載下的表現(xiàn),而非短時(shí)峰值跑分成績(jī)。如今單個(gè)機(jī)架的設(shè)計(jì)功耗可達(dá) 50kW 至 300kW 以上,因此不得不從整體層面進(jìn)行權(quán)衡,單芯片“極限”性能指標(biāo)的重要性因此下降。
系統(tǒng)平衡變得更為關(guān)鍵:
在各個(gè)計(jì)算組件之間高效傳輸數(shù)據(jù);
在機(jī)架層面實(shí)現(xiàn)每瓦功耗產(chǎn)生更多有效算力;
讓 CPU、GPU、NPU、內(nèi)存池與互聯(lián)架構(gòu)協(xié)同一致、整體運(yùn)行。
Futurum 報(bào)告也指出,行業(yè)關(guān)注點(diǎn)已從:“能堆多少原始算力”轉(zhuǎn)向“如何在系統(tǒng)層面,針對(duì)多樣化的需求與環(huán)境,更加智能地編排算力?”
這一轉(zhuǎn)變重構(gòu)了芯片的定位。加速器決定了原始算力吞吐能力,而系統(tǒng)編排(涵蓋任務(wù)調(diào)度、內(nèi)存管理、安全管控與數(shù)據(jù)傳輸)則決定了這種吞吐能否在大規(guī)模下持續(xù)。若缺少高效的系統(tǒng)編排,從機(jī)架層面,受制于內(nèi)存、網(wǎng)絡(luò)或控制面瓶頸,即便最強(qiáng)大的加速器也可能陷入閑置狀態(tài),無(wú)法充分發(fā)揮性能。
在代理式 AI 工作負(fù)載場(chǎng)景中,這種現(xiàn)象會(huì)愈發(fā)明顯。數(shù)百萬(wàn)軟件智能體并發(fā)運(yùn)行,查詢數(shù)據(jù)、調(diào)用工具、生成輸出、跨服務(wù)協(xié)同,算力需求從“突發(fā)式”供給,轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)性持續(xù)供給。為此,基礎(chǔ)設(shè)施必須能夠支撐持續(xù)不間斷的系統(tǒng)編排與數(shù)據(jù)傳輸,而非僅滿足模型的瞬時(shí)峰值吞吐需求。
CPU 在 AI 時(shí)代的重要性愈發(fā)凸顯
隨著 AI 模型、工作負(fù)載與部署環(huán)境的多樣化發(fā)展,CPU 正越來(lái)越多地充當(dāng) AI 的頭節(jié)點(diǎn),即系統(tǒng)的控制中樞,負(fù)責(zé)對(duì)整個(gè)系統(tǒng)進(jìn)行協(xié)調(diào)與編排。
在大規(guī)模 AI 平臺(tái)中,CPU 主要負(fù)責(zé):
在各種異構(gòu)加速器之間分派與調(diào)度任務(wù);
為各類工作負(fù)載管理內(nèi)存一致性、數(shù)據(jù)本地化與主機(jī)內(nèi)存卸載,例如 KV 緩存和向量數(shù)據(jù)庫(kù);
處理純矩陣運(yùn)算之外的數(shù)據(jù)預(yù)處理與后處理任務(wù);
在整個(gè)系統(tǒng)范圍內(nèi)執(zhí)行控制平面操作、安全防護(hù)與資源隔離。
簡(jiǎn)而言之,加速器負(fù)責(zé)執(zhí)行驅(qū)動(dòng) AI 模型的運(yùn)算,而 CPU 則是將算力轉(zhuǎn)化為可靠、可擴(kuò)展、具備實(shí)際應(yīng)用價(jià)值的核心。
CPU 的重要性已得到行業(yè)頭部企業(yè)的驗(yàn)證和認(rèn)可。在彭博社的一次采訪中,NVIDIA 創(chuàng)始人兼 CEO 黃仁勛證實(shí),全新 Vera Rubin 平臺(tái)所搭載的基于 Arm 架構(gòu)的 Vera CPU 將作為獨(dú)立產(chǎn)品推出。此舉清楚表明,CPU 在 AI 系統(tǒng)設(shè)計(jì)中的重要性正與日俱增。
此外,隨著 AI 基礎(chǔ)設(shè)施日益多元化,CPU 架構(gòu)憑借靈活性、高能效和系統(tǒng)協(xié)同能力,價(jià)值和重要性將大幅提升。Arm 的優(yōu)勢(shì)也由此顯現(xiàn)。Futurum 的研究報(bào)告明確指出:“GPU 和 TPU 等專用加速器通常會(huì)與基于 Arm 架構(gòu)的 CPU 搭配使用,以承擔(dān)通用控制與數(shù)據(jù)管理任務(wù),同時(shí)有效避免高昂的成本與功耗開銷?!?/p>
Arm 引領(lǐng)系統(tǒng)級(jí)基礎(chǔ)設(shè)施的發(fā)展
Arm 計(jì)算架構(gòu)的優(yōu)勢(shì)體現(xiàn)在性能、能效、可擴(kuò)展性與龐大的生態(tài)系統(tǒng)上,能夠幫助系統(tǒng)架構(gòu)師在日新月異的 AI 領(lǐng)域更好地管控風(fēng)險(xiǎn),而且精準(zhǔn)匹配新一代機(jī)架級(jí) AI 系統(tǒng)的需求。
以上優(yōu)勢(shì)已在頭部超大規(guī)模云服務(wù)提供商的實(shí)踐中得到驗(yàn)證:
亞馬遜云科技將基于 Arm 架構(gòu)的 Graviton CPU 與 Nitro DPU 及 Trainium 加速器相結(jié)合,優(yōu)化機(jī)架級(jí)能效;
Google 基于 TPU 的系統(tǒng)正越來(lái)越多地搭配集成 Arm CPU 核心的 Google Axion 處理器,承擔(dān)編排與控制任務(wù);
NVIDIA 的 Grace、Grace-Hopper 和即將推出的 Vera 平臺(tái),均將 GPU 與基于 Arm 架構(gòu)的 CPU,以及 DPU 配對(duì),打造高度集成化的 AI 系統(tǒng)。
Arm 計(jì)算平臺(tái)正作為系統(tǒng)基石,將加速器、內(nèi)存與網(wǎng)絡(luò)組件整合到一起,構(gòu)成協(xié)同統(tǒng)一、高能效的整體系統(tǒng)。
AI 正邁向以推理為先的發(fā)展階段
盡管模型訓(xùn)練常常占據(jù)新聞?lì)^條,但推理才是 AI 實(shí)現(xiàn)規(guī)?;暮诵摹4硎?AI 的興起進(jìn)一步提升了推理的重要性,因?yàn)橹悄荏w需要持續(xù)運(yùn)行,執(zhí)行一連串推理操作,而非單次調(diào)用模型。
從眾多路線圖來(lái)看,未來(lái)十年內(nèi)推理工作負(fù)載將超越訓(xùn)練工作負(fù)載,而推理對(duì)系統(tǒng)的要求,與訓(xùn)練截然不同,主要體現(xiàn)在:
需要更低的延遲;
對(duì)內(nèi)存帶寬更為敏感;
需要持續(xù)不間斷運(yùn)行;
功耗與散熱限制嚴(yán)格。
上述要求不僅針對(duì)數(shù)據(jù)中心,同樣適用于邊緣側(cè)場(chǎng)景,包括我們?nèi)粘I钪械?a href="http://www.makelele.cn/soft/data/39-96/" target="_blank">消費(fèi)電子設(shè)備與物聯(lián)網(wǎng)系統(tǒng)。與云端一樣,邊緣計(jì)算同樣遵循相同的系統(tǒng)級(jí)設(shè)計(jì)原則:
性能由加速能力與系統(tǒng)間的數(shù)據(jù)傳輸效率共同決定;
安全防護(hù)依賴系統(tǒng)級(jí)協(xié)同,實(shí)現(xiàn)跨工作負(fù)載與內(nèi)存間的全域防護(hù);
集成速度直接影響產(chǎn)品上市時(shí)間。
在邊緣 AI 系統(tǒng)中,如果加速器與內(nèi)存、互聯(lián)沒有緊密耦合,系統(tǒng)就會(huì)迅速陷入帶寬、功耗及軟件復(fù)雜度等多重瓶頸。只有將 CPU 加速、內(nèi)存與互聯(lián)進(jìn)行深度集成,才能提供更穩(wěn)定的性能、更高效的擴(kuò)展能力,也更利于開發(fā)者使用。
Futurum 的報(bào)告指出:“以往需要依托云端完成的任務(wù),如今可借助 Arm 高能效核心與集成的 AI 引擎在本地實(shí)現(xiàn)?!?/p>
規(guī)模化系統(tǒng)設(shè)計(jì)
隨著系統(tǒng)復(fù)雜度不斷攀升,集成與驗(yàn)證環(huán)節(jié)(而非晶體管設(shè)計(jì))正成為成本與風(fēng)險(xiǎn)的主要來(lái)源。因此,行業(yè)開始轉(zhuǎn)向采用預(yù)集成的計(jì)算子系統(tǒng)和標(biāo)準(zhǔn)化系統(tǒng)接口。
在此行業(yè)趨勢(shì)下,Arm 計(jì)算子系統(tǒng) (Compute Subsystems, CSS)應(yīng)運(yùn)而生,市場(chǎng)需求持續(xù)增長(zhǎng)。CSS 提供經(jīng)過(guò)預(yù)先驗(yàn)證的子系統(tǒng),為定制化系統(tǒng)設(shè)計(jì)提供了明確路徑,在降低集成風(fēng)險(xiǎn)的同時(shí),助力合作伙伴實(shí)現(xiàn)產(chǎn)品差異化。CSS 不再僅提供獨(dú)立的 IP 模塊,而是提供預(yù)先驗(yàn)證的系統(tǒng)設(shè)計(jì)方案,涵蓋 CPU、互聯(lián)、一致性協(xié)議與內(nèi)存管理機(jī)制,實(shí)現(xiàn)各組件原生協(xié)同。
此外,Arm 的系統(tǒng) IP 產(chǎn)品組合涵蓋互聯(lián)控制器、內(nèi)存控制器與一致性互聯(lián)架構(gòu),能夠幫助合作伙伴以更低風(fēng)險(xiǎn)、更快速度,設(shè)計(jì)出全方位面向 AI 優(yōu)化的系統(tǒng)。在 AI 工作負(fù)載同時(shí)對(duì)帶寬、延遲與功耗提出嚴(yán)苛要求的背景下,此等系統(tǒng)級(jí)基礎(chǔ)平臺(tái)的重要性愈發(fā)凸顯。
核心價(jià)值與意義
隨著 AI 從孤立的模型推理轉(zhuǎn)向由智能體驅(qū)動(dòng)的系統(tǒng),計(jì)算基礎(chǔ)設(shè)施面臨的核心挑戰(zhàn)變?yōu)閰f(xié)同調(diào)度,要確保各類處理器、內(nèi)存系統(tǒng)與網(wǎng)絡(luò)能夠作為協(xié)調(diào)統(tǒng)一的整體運(yùn)行。
AI 領(lǐng)域的核心競(jìng)爭(zhēng)力將聚焦于系統(tǒng)層面的四大能力:
在功耗約束下構(gòu)建高能效系統(tǒng);
整合異構(gòu)計(jì)算資源,避免架構(gòu)割裂;
以盡可能低的能耗完成數(shù)據(jù)傳輸;
將安全與性能內(nèi)化為系統(tǒng)原生屬性,而非附加功能。
Futurum 的報(bào)告總結(jié)道:“行業(yè)格局的重塑,不僅取決于誰(shuí)能制造出性能最強(qiáng)的芯片,更取決于誰(shuí)能打造出覆蓋全場(chǎng)景、高度集成化且高能效的系統(tǒng)?!?/p>
憑借系統(tǒng)層面的定制化、高能效與多樣化選擇,Arm 架構(gòu)正支撐越來(lái)越多高可擴(kuò)展性 AI 計(jì)算環(huán)境,覆蓋超大規(guī)模數(shù)據(jù)中心至邊緣設(shè)備全場(chǎng)景。
AI 的未來(lái),并非單純追求芯片算力提升,而是依托 Arm 架構(gòu)打造更智能、更高效、更具擴(kuò)展性的整體系統(tǒng)。
-
ARM
+關(guān)注
關(guān)注
135文章
9578瀏覽量
393121 -
AI
+關(guān)注
關(guān)注
91文章
40641瀏覽量
302296 -
算力
+關(guān)注
關(guān)注
2文章
1611瀏覽量
16816
原文標(biāo)題:從云到邊緣:系統(tǒng)級(jí)智能為何是 AI 發(fā)展的基石?
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
嵌入式AI開發(fā)必看:杜絕幻覺,才是工業(yè)級(jí)IDE的核心底氣
論馬斯克的預(yù)言:AI使人類邊緣化
邊緣AI算力臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值
【「芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來(lái)展望」閱讀體驗(yàn)】--中國(guó)EDA的發(fā)展
【「芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來(lái)展望」閱讀體驗(yàn)】+ 芯片“卡脖子”引發(fā)對(duì)EDA的重視
Magna AI加入NVIDIA Inception計(jì)劃,推動(dòng)生產(chǎn)級(jí)人工智能規(guī)?;?b class='flag-5'>發(fā)展
車載通信設(shè)備EMC整改:推動(dòng)汽車電子發(fā)展的基石
AI智能體管理系統(tǒng)構(gòu)建企業(yè)級(jí)應(yīng)用的管理框架
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+具身智能芯片
AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
光纖為何是AI就緒型數(shù)據(jù)中心的基石?
邊緣AI的優(yōu)勢(shì)和技術(shù)基石
系統(tǒng)級(jí)智能為何是AI發(fā)展的基石
評(píng)論