日本成人无码免费视频,免费看三级麻豆无码导航,亚洲AV免费看一区二区

WAIC 2025前夕，在摩爾線程技術(shù)分享日上，摩爾線程GPU 計(jì)算軟件開(kāi)發(fā)總監(jiān)吳慶，發(fā)表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無(wú)限潛能》的演講。他從專業(yè)視角出發(fā)，深入剖析了 MUSA 軟件棧在驅(qū)動(dòng) KUAE 集群高效運(yùn)轉(zhuǎn)方面的核心技術(shù)與創(chuàng)新成果。

摩爾線程GPU 計(jì)算軟件開(kāi)發(fā)總監(jiān)吳慶在WAIC 期間的技術(shù)分享（來(lái)源：電子發(fā)燒友網(wǎng)拍攝）

一、MUSA 驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù)：KUAE 集群的堅(jiān)實(shí)底座?

首先是驅(qū)動(dòng)的重要性。在推理場(chǎng)景中，Kernel 延時(shí)如同懸在高效運(yùn)算頭上的 “達(dá)摩克利斯之劍”，對(duì)運(yùn)算效率影響極大。而摩爾線程的 MUSA 驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù)就像是一位技藝精湛的調(diào)度大師，憑借自身高效的任務(wù)調(diào)度能力，將用戶的 Kernel launch 開(kāi)銷大幅縮減，為 KUAE 集群筑牢了根基。

吳慶詳細(xì)介紹，MUSA 實(shí)現(xiàn)即時(shí)任務(wù)下發(fā)，通過(guò)獨(dú)特的軟硬協(xié)同方式，將核函數(shù)啟動(dòng)延遲成功降低到業(yè)界平均水平的 1/2。打個(gè)比方，這就如同在酷熱的仲夏，人們能夠借助手機(jī)遠(yuǎn)程提前開(kāi)啟暴曬在戶外車輛的空調(diào)，待上車時(shí)便能立刻享受清涼。MUSA 正是巧妙地將調(diào)度開(kāi)銷前置，在上一個(gè) Kernel 執(zhí)行尚未結(jié)束時(shí)，就提前有條不紊地完成下一個(gè) Kernel 的配置，由此最大程度減少了 Kernel 間的調(diào)度延時(shí)，讓運(yùn)算銜接更加緊密流暢。?

在批量任務(wù)下發(fā)方面，吳慶表示，MUSA 將近千次的計(jì)算和通信任務(wù)下發(fā)開(kāi)銷巧妙優(yōu)化為單次。他舉例解釋道，這類似于汽車座椅的一鍵記憶功能，駕駛者只需輕松操作一次，就能一次性打包調(diào)節(jié)好多個(gè)復(fù)雜步驟，后續(xù)使用時(shí)無(wú)需再重復(fù)繁瑣操作。在實(shí)際應(yīng)用中，這種優(yōu)化帶來(lái)的端到端收益因不同應(yīng)用場(chǎng)景而有所差異，最高可達(dá)好幾倍，極大節(jié)省了 GPU 的等待時(shí)間，提升了整體運(yùn)算效率。

談及引擎間依賴解析能力，吳慶強(qiáng)調(diào)，GPU 擁有多引擎可配置的特性，MUSA 借助硬件解析引擎間的依賴進(jìn)行同步，這一創(chuàng)新之處在于無(wú)需再回到 host，從而使任務(wù)流之間的依賴解析延時(shí)大幅降低至 1.5μs，相較于業(yè)界頭部算力卡表現(xiàn)更為出色。此外，吳慶還介紹了調(diào)優(yōu)工具接口 MUPTI，它能夠像貼心助手一般，幫助開(kāi)發(fā)者深入優(yōu)化 MUSA 應(yīng)用程序；而 GPU 錯(cuò)誤轉(zhuǎn)存功能（GCD）則在程序遭遇出錯(cuò)情況時(shí)，迅速生成詳細(xì)信息，大大提升了問(wèn)題定位的效率，為程序穩(wěn)定運(yùn)行保駕護(hù)航。?

二、MUSA 算子庫(kù)生態(tài)：性能與廣度兼?zhèn)?

吳慶在演講中著重提到，算子庫(kù)的效率在分布式集群的訓(xùn)練過(guò)程中扮演著關(guān)鍵角色，恰似汽車的引擎決定著汽車的動(dòng)力表現(xiàn)。MUSA 算子庫(kù)在研發(fā)過(guò)程中，始終秉持著追求極致性能的理念，同時(shí)兼顧覆蓋廣度和兼容性，致力于為用戶提供豐富多元的選擇。?

MUSA 算子庫(kù)生態(tài)涵蓋三大算子庫(kù)。吳慶首先介紹了 muDNN，它堪稱是開(kāi)箱即用的標(biāo)準(zhǔn)算子庫(kù)，功能十分全面，完整覆蓋常見(jiàn)的前向和反向算子，對(duì)完整的 XMMA、Tensor Core 全精度及所有量化模式等均提供支持。在性能數(shù)據(jù)上，其矩陣乘算子效率可達(dá) 98%，F(xiàn)lash Attention 算子效率能達(dá)到 95%，這些數(shù)據(jù)遠(yuǎn)超行業(yè)平均水平，彰顯出強(qiáng)大的運(yùn)算實(shí)力。在講解 FP8 GEMM 算子效率時(shí)，吳慶形象地比喻道，Per-Tensor scale 如同整面墻刷一種顏色，操作過(guò)程簡(jiǎn)單直接；而 Per-Block scale 則像給墻上的小方塊刷不同顏色，復(fù)雜度明顯更高。但摩爾線程通過(guò)深度的軟硬協(xié)同優(yōu)化，成功使 Per-Block 與 Per-Tensor FP8 GEMM 計(jì)算效率差距控制在不到 2%，極大提升了復(fù)雜場(chǎng)景下的運(yùn)算性能。?

接著，吳慶介紹了 MUTLASS，它作為高性能線性代數(shù)模板庫(kù)，已經(jīng)在 Github 開(kāi)源。MUTLASS 支持平湖架構(gòu)所有特性，并且貼心地提供 Attention 最優(yōu)化示例，這一舉措極大降低了用戶自定義算子的開(kāi)發(fā)工作量，讓開(kāi)發(fā)者能夠更便捷地進(jìn)行相關(guān)開(kāi)發(fā)工作。最后，吳慶透露，即將發(fā)布的 MUSA AI Tensor Engine 是面向大語(yǔ)言模型的開(kāi)源推理算子庫(kù)，它提供友好的 Python API，未來(lái)還將支持豐富后端，能夠助力開(kāi)發(fā)者快速搭建自定義推理引擎，為大語(yǔ)言模型領(lǐng)域的開(kāi)發(fā)工作帶來(lái)更多便利與可能。?

三、高性能通信技術(shù)：避免通信搶占計(jì)算核心資源?

在大模型分布式訓(xùn)練領(lǐng)域，通信問(wèn)題一直是制約發(fā)展的主要瓶頸，猶如交通擁堵阻礙城市高效運(yùn)轉(zhuǎn)。吳慶在演講中指出，摩爾線程在 MTT S5000 上支持 MTLINK 2.0，并創(chuàng)新性地配備 GPU 異步通信引擎，成功實(shí)現(xiàn)了通信技術(shù)與計(jì)算的高度并行，為解決這一瓶頸問(wèn)題提供了有效方案。

圖：摩爾線程的異步通信引擎技術(shù)支持通過(guò)MTLink進(jìn)行C2C數(shù)據(jù)通信

吳慶回顧道，早在之前，摩爾線程的技術(shù)團(tuán)隊(duì)就敏銳洞察到通信與計(jì)算搶占 SM 計(jì)算單元這一行業(yè)痛點(diǎn)，經(jīng)過(guò)深入研究與技術(shù)攻關(guān)，最終在 GPU 上成功增加了異步通信引擎。以 MTT S5000 服務(wù)器為例，每節(jié)點(diǎn)配備 8 張 GPU，通過(guò) MTLINK 2.0 實(shí)現(xiàn)全互連，每張 GPU 與其他 7 張 GPU 直連。并且，每個(gè) GPU 的異步通信引擎原生支持多種 reduce 操作和數(shù)據(jù)類型，還能借助 Zero Copy 技術(shù)避免本地 D2D 拷貝，直接進(jìn)行跨卡通信，大大提升了通信效率。?

在通信性能方面，吳慶詳細(xì)列舉了相關(guān)數(shù)據(jù)?；谌ヂ?lián)（FC8）拓?fù)涞母咝ㄐ?a href="http://www.makelele.cn/v/tag/2562/" target="_blank">算法，在單機(jī) 8 卡 All Reduce 場(chǎng)景中，將延遲從 Ring 算法的 53us 大幅降至 7.8us，縮減近 1/7；帶寬方面，單機(jī) 8 卡 All Reduce 帶寬利用率接近 85%，跨節(jié)點(diǎn)通信中，All Reduce 帶寬達(dá) 194GB/s，RDMA 通信帶寬利用率更是高達(dá) 97%。不僅如此，異步通信引擎的通信優(yōu)化將通信部分巧妙卸載到單獨(dú)引擎，不占用 MPC 計(jì)算資源，在無(wú)數(shù)據(jù)依賴時(shí)能夠?qū)崿F(xiàn)完全 overlap。吳慶特別提到，結(jié)合 MT Transformer Engine，這一優(yōu)化使 Llama 模型端到端計(jì)算通信性能提升約 10%，切實(shí)為大模型分布式訓(xùn)練的高效運(yùn)行提供了有力支撐。?

四、展望未來(lái)：首屆MUSA開(kāi)發(fā)者大會(huì)即將啟幕

分享日最后，摩爾線程還宣布將于今年10月舉辦首屆MUSA開(kāi)發(fā)者大會(huì)，進(jìn)一步推動(dòng)國(guó)產(chǎn)GPU生態(tài)建設(shè)。從芯片架構(gòu)到集群系統(tǒng)，從技術(shù)突破到行業(yè)落地，摩爾線程正以“AI工廠”為藍(lán)圖，引領(lǐng)國(guó)產(chǎn)算力基礎(chǔ)設(shè)施邁向AGI時(shí)代的新高度。（完）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴