东京热无码系列日美非av,亚洲视频图片欧美国产日韩草,国产精品视频性爱

摩爾線程在世界人工智能大會（WAIC 2025）前夕舉辦以“算力進(jìn)化，精度革命”為主題的技術(shù)分享會，創(chuàng)新性提出“AI工廠” 理念。這一系統(tǒng)性工程通過全功能GPU、自研架構(gòu)、集群技術(shù)與軟件生態(tài)的深度協(xié)同，重新定義了AI基礎(chǔ)設(shè)施的生產(chǎn)力公式 ——AI工廠生產(chǎn)效率=加速計算通用性 × 單芯片有效算力 × 單節(jié)點(diǎn)效率 × 集群效率 × 集群穩(wěn)定性。作為國內(nèi)率先實現(xiàn)單芯片集成AI計算、圖形渲染、物理仿真、超高清視頻編解碼四大引擎的GPU廠商，摩爾線程此次提出的 “AI工廠” 并非單純的硬件升級，而是涵蓋芯片架構(gòu)、集群管理、算法優(yōu)化、資源調(diào)度的全棧式創(chuàng)新。正如創(chuàng)始人張建中在主題演講中所言：“我們正在建造的，是能夠生產(chǎn)AGI時代先進(jìn)模型的超級工廠?！?br />
一、大模型算力需求呈指數(shù)級增長，參數(shù)量與數(shù)據(jù)量成核心驅(qū)動力

在WAIC 2025摩爾線程技術(shù)分享日上，副總裁王華首先聚焦大模型算力需求的發(fā)展趨勢。他指出，2020年至2025年間，主流大模型的算力需求呈現(xiàn)出近乎指數(shù)級的增長態(tài)勢，從單位為flops的數(shù)值來看，每一格代表10倍增長的縱軸上，模型所需算力持續(xù)攀升。

圖：摩爾線程副總裁王華在大會上演講分享他對大模型智算集群的看法（圖片來源：電子發(fā)燒友網(wǎng)）

以具體模型為例，2020 年大模型算力需求 TOP 值為 1023flops，而到 2025 年，Grok-3 的算力需求已達(dá) 102?flops，短短五年間實現(xiàn)了約 1000 倍的增長；GPT-4 的訓(xùn)練量更是達(dá)到 102?flops，較早期模型提升一個數(shù)量級。這種增長的核心驅(qū)動力來自參數(shù)量與數(shù)據(jù)量的雙重擴(kuò)張 —— 根據(jù) Scaling Law，參數(shù)量和數(shù)據(jù)量的增大能顯著降低模型 loss 值，提升模型效果，進(jìn)而推動算力需求激增。

王華還通過不同規(guī)模集群的訓(xùn)練時間對比，直觀展現(xiàn)了算力需求的規(guī)模。以英偉達(dá)H100 集群為例：DeepSeek 模型算力需求約 3.4×102?flops，在千卡集群中需訓(xùn)練 97 天，五千卡集群需 22 天，萬卡集群需 13 天；萬億參數(shù)的 Kimi K2 模型計算量為 2.98×102?flops，對應(yīng)訓(xùn)練時間分別為 85 天、19 天、11 天；而 GPT-4 因算力需求達(dá) 102?flops，千卡集群需 602 天，五千卡集群需 137 天，萬卡集群需 80 天。即便是早期的 GPT-3，雖參數(shù)量不小，但因數(shù)據(jù)量有限，訓(xùn)練效率相對更高。這些數(shù)據(jù)清晰表明，參數(shù)量與數(shù)據(jù)量的 “雙增長” 正持續(xù)推高大模型訓(xùn)練的算力門檻。

二、FP8 成低精度訓(xùn)練 “甜點(diǎn)”，技術(shù)突破平衡效率與效果

在算力需求激增的背景下，低精度訓(xùn)練技術(shù)成為提升效率的關(guān)鍵。王華介紹，從FP32 到 FP16 再到 FP8，精度每下降一半，算力可提升一倍 —— 這源于顯存占用減少、緩存速度提升，但同時也可能因數(shù)值損失導(dǎo)致模型效果下降。因此，如何在精度、參數(shù)量、數(shù)據(jù)量之間找到平衡，成為核心課題。

引入精度參數(shù)P 后的新 Scaling Law 顯示，在固定計算量下，需合理配置參數(shù)量（N）、數(shù)據(jù)量（D）與精度（P）：精度越高，loss 值（L）越小，但算力成本也越高。通過對比 FP32、FP16、FP8、FP6、FP4 的效果，發(fā)現(xiàn) FP6 和 FP8 處于 loss 值最低的 “甜點(diǎn)區(qū)域”，而 FP4 因精度過低導(dǎo)致 loss 值回升。近期研究進(jìn)一步驗證，F(xiàn)P8 是當(dāng)前兼顧效率與效果的最優(yōu)選擇，相比 FP16 訓(xùn)練有巨大提升空間。

不過，F(xiàn)P8 訓(xùn)練面臨兩大核心挑戰(zhàn)：一是取值范圍有限，易出現(xiàn)上溢（梯度爆炸）和下溢（梯度消失）；二是不同操作對精度敏感度差異大 —— 矩陣乘等操作對精度不敏感，累加 / 歸約類操作敏感度中等，非線性函數(shù)（如指數(shù)級增長的計算）則高度敏感。對此，行業(yè)普遍采用混合精度訓(xùn)練策略：對精度不敏感的部分（如矩陣乘）用 FP8 計算，敏感部分保留高精度。

王華強(qiáng)調(diào)，F(xiàn)P8 技術(shù)的落地離不開軟硬件協(xié)同支撐。硬件上，新一代 Tensor Core（如英偉達(dá)產(chǎn)品）已支持 FP8 輸入與高精度輸出；軟件層面，權(quán)重更新用 FP32 表達(dá)、Tensor Scaling 動態(tài)調(diào)整數(shù)值范圍等技術(shù)，有效緩解了精度損失問題。以 DeepSeek 模型為例，其前向和反向傳播中的 3 次矩陣乘均采用 FP8，激活值的緩存與傳輸也用 FP8，僅對精度敏感部分保留高精度，大幅提升了訓(xùn)練效率。

三、摩爾線程全棧支持FP8 訓(xùn)練，技術(shù)創(chuàng)新攻克落地難點(diǎn)

作為國內(nèi)GPU 廠商代表，摩爾線程已構(gòu)建起 FP8 訓(xùn)練的軟硬件全棧支持能力。王華詳細(xì)介紹了其技術(shù)布局：

在硬件層面，摩爾線程GPU 為全功能芯片，原生支持從 FP64、FP32 到 FP8 的全精度算力，為低精度訓(xùn)練提供基礎(chǔ)支撐。

軟件棧則包含三大開源框架：一是Torch-MUSA，作為 Torch 棧上的 MUSA 底層插件，已實現(xiàn)對 FP8 數(shù)據(jù)類型的完整支持，可在 MUSA 平臺上順暢運(yùn)行整個 Torch 生態(tài)；二是 MT-MegatronLM，支持 Dense、多模態(tài)、MoE 等模型的高效訓(xùn)練，支持FP8 混合精度訓(xùn)練、高性能 muDNN 庫與 MCCL 通信庫；三是 MT-TransformerEngine，專注于 Transformer 模型的高效訓(xùn)練與推理優(yōu)化，通過算子融合、并行加速等技術(shù)提升效率。

依托這套軟件棧，摩爾線程成為行業(yè)內(nèi)率先復(fù)現(xiàn)DeepSeek-V3 “滿血版” 訓(xùn)練的廠商（其他廠商多聚焦推理復(fù)現(xiàn)）。其核心突破包括：通過 MT FlashMLA 和 DeepGEMM 庫優(yōu)化算子性能，精準(zhǔn)復(fù)現(xiàn)了 DeepSeek 的訓(xùn)練邏輯。

針對FP8 訓(xùn)練的具體難點(diǎn)，摩爾線程還做了針對性創(chuàng)新：在 scaling factor 選擇上，Per-Tensor 維度因數(shù)值范圍穩(wěn)定（最小值約 200，最大值約 2000），采用固定因子；Per-Block 維度因最小值可能為 0，易導(dǎo)致數(shù)值異常，故用 JIT 動態(tài)的scalingfactor的選擇。在處理outlier（異常值）方面，通過 Smooth SwiGLU 技術(shù)，在量化后先乘縮放因子、第二次量化后再恢復(fù)，降低了 FP8 上溢風(fēng)險，提升了訓(xùn)練穩(wěn)定性。

四、大規(guī)模集群訓(xùn)練：模擬優(yōu)化與可靠性保障并重

隨著集群規(guī)模擴(kuò)大（萬卡、十萬卡級），訓(xùn)練的效率與可靠性成為關(guān)鍵。王華指出，大規(guī)模訓(xùn)練無法全靠實驗驗證（資源消耗過大），需依賴模擬工具與可靠性技術(shù)。

在模擬優(yōu)化方面，摩爾線程開源了Simumax 軟件（GitHub 可下載），通過理論與仿真結(jié)合，估算訓(xùn)練中的資源開銷。該工具支持多種并行策略、優(yōu)化策略，可在主流模型上通過計算圖仿真，收集各類開銷數(shù)據(jù)，快速評估資源需求，并定位性能偏差原因。其核心邏輯是基于經(jīng)驗與理論數(shù)據(jù)，在計算圖上模擬全流程，匯總開銷后形成量化結(jié)果，為集群配置提供精準(zhǔn)參考。

在可靠性保障上，摩爾線程建立了“全生命周期管理” 體系：一是 “起飛檢查”，訓(xùn)練前對硬件、網(wǎng)絡(luò)進(jìn)行全面檢測，跑小負(fù)載驗證棧穩(wěn)定性，自動剔除異常節(jié)點(diǎn)，降低人工排查帶來的時間成本和人力成本；二是“飛行檢查”，實時檢測訓(xùn)練中的hang、異常退出、訓(xùn)練亞健康等問題并及時處理；三是“落地檢查”，訓(xùn)練中斷時自動抓取故障上下文，定位問題根源。

針對“慢節(jié)點(diǎn)” 拖累整體效率的問題，摩爾線程通過兩方面檢查解決：起飛階段用小工作負(fù)載測試識別明顯慢節(jié)點(diǎn)；訓(xùn)練中對比節(jié)點(diǎn)通信時間，挑出異常節(jié)點(diǎn)。此舉常能帶來10%-20% 的性能提升。

在容錯訓(xùn)練上，針對萬卡級集群的高故障率，采用“動態(tài)摘除” 策略：若某 DP（數(shù)據(jù)并行）節(jié)點(diǎn)故障，將其從通信組中摘除，剩余節(jié)點(diǎn)繼續(xù)工作；若 DP 規(guī)模較大，可摘除單個節(jié)點(diǎn)，跳過該節(jié)點(diǎn)的參數(shù)計算與更新 —— 因數(shù)據(jù)量巨大，少量數(shù)據(jù)缺失對整體效果影響極小，但能避免集群重啟的巨額開銷。

王華總結(jié)，算力需求激增推動低精度訓(xùn)練技術(shù)崛起，F(xiàn)P8 成為當(dāng)前最優(yōu)解，而摩爾線程通過軟硬件全棧創(chuàng)新與集群管理技術(shù)，正為大規(guī)模大模型訓(xùn)練提供高效、可靠的支撐。未來，其開發(fā)者大會將分享更多技術(shù)探索，持續(xù)推動 AI 算力基礎(chǔ)設(shè)施的進(jìn)化。

五、對未來趨勢的總結(jié)

最后，王總特別總結(jié)指出現(xiàn)在的AI三個大趨勢：第一、算力需求的發(fā)展趨勢，使得大智算集群成為訓(xùn)練的剛需。第二，低精度的訓(xùn)練，會帶來大規(guī)模訓(xùn)練效率的提升。第三，集群的可靠性對大規(guī)模訓(xùn)練至關(guān)重要。（完）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴