91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程正式開源TileLang-MUSA項(xiàng)目

摩爾線程 ? 來(lái)源:摩爾線程 ? 2026-02-11 16:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,摩爾線程正式開源TileLang-MUSA項(xiàng)目,實(shí)現(xiàn)對(duì)TileLang編程語(yǔ)言的完整支持。該項(xiàng)目已成功在摩爾線程多代全功能GPU上完成功能驗(yàn)證與特性開發(fā),旨在通過(guò)高層抽象與編譯器優(yōu)化,大幅降低開發(fā)門檻,為國(guó)產(chǎn)算力平臺(tái)提供更高效的AI與高性能計(jì)算開發(fā)體驗(yàn)。

TileLang-MUSA開源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang:重新定義GPU算子編程的語(yǔ)言

TileLang是一款基于張量分塊(Tiling)抽象的高性能AI算子編程語(yǔ)言,屬于領(lǐng)域特定語(yǔ)言(DSL)。它采用聲明式語(yǔ)法與類Python前端,使開發(fā)者能夠以接近數(shù)學(xué)公式的形式描述計(jì)算意圖,并由編譯器自動(dòng)完成循環(huán)優(yōu)化、內(nèi)存調(diào)度與代碼生成,在保持底層性能的同時(shí)大幅降低GPU及異構(gòu)計(jì)算平臺(tái)的編程復(fù)雜度。

在實(shí)際應(yīng)用中,TileLang通過(guò)三大核心作用顯著提升GPU計(jì)算的開發(fā)效率:

通過(guò)高級(jí)抽象降低開發(fā)門檻,開發(fā)者無(wú)需深入底層硬件知識(shí)即可生成高性能代碼;

具備跨平臺(tái)能力,實(shí)現(xiàn)“一次編寫、多架構(gòu)運(yùn)行”,有效解決多元算力生態(tài)的適配難題;

編譯器自動(dòng)執(zhí)行Layout推導(dǎo)、線程映射、Warp特化、流水線排布、內(nèi)存優(yōu)化等復(fù)雜優(yōu)化,在保障性能的同時(shí)提升開發(fā)效率。

TileLang已廣泛應(yīng)用于多個(gè)關(guān)鍵領(lǐng)域,例如:在AI與機(jī)器學(xué)習(xí)中,研究人員可用其快速定義新型算子(如注意力機(jī)制);在科學(xué)計(jì)算中,可便捷移植大型數(shù)值模擬程序至不同硬件平臺(tái);對(duì)硬件廠商而言,TileLang可作為構(gòu)建芯片軟件生態(tài)的基礎(chǔ)工具鏈。

在產(chǎn)業(yè)實(shí)踐中,DeepSeek-V3的研發(fā)已采用TileLang進(jìn)行算子快速原型設(shè)計(jì)與性能驗(yàn)證,證明了其在大規(guī)模模型訓(xùn)練中的實(shí)戰(zhàn)價(jià)值。摩爾線程開源的TileLang-MUSA項(xiàng)目,正是這一技術(shù)理念的產(chǎn)業(yè)落地——通過(guò)提供高效開發(fā)工具鏈降低創(chuàng)新門檻,推動(dòng)國(guó)產(chǎn)算力應(yīng)用生態(tài)的繁榮發(fā)展。

TileLang-MUSA:連接前沿語(yǔ)法與國(guó)產(chǎn)算力的橋梁

摩爾線程此次開源的 TileLang-MUSA項(xiàng)目,旨在充分釋放全功能GPU的性能潛力。它提供了一種介于底層匯編與高層DSL之間的“中間層”抽象,在保留硬件控制力的同時(shí),顯著降低了編程復(fù)雜度。具體特性如下:

廣泛的硬件架構(gòu)覆蓋:TileLang-MUSA已在摩爾線程多代全功能GPU上完成功能驗(yàn)證與打通,包括訓(xùn)推一體全功能智算卡 MTT S5000和MTT S4000,展現(xiàn)了良好的硬件兼容性。

核心計(jì)算特性的深度映射:項(xiàng)目團(tuán)隊(duì)實(shí)現(xiàn)了TileLang高層語(yǔ)義到摩爾線程GPU底層MUSA架構(gòu)的精準(zhǔn)映射。

Tensor Core 加速:編譯器能夠自動(dòng)調(diào)用MUSA的MMA(矩陣乘累加)指令,充分發(fā)揮硬件張量核心的峰值計(jì)算能力;

Tile-Level Pipeline:自動(dòng)處理從全局內(nèi)存(Global Memory)到共享內(nèi)存(Shared Memory)再到寄存器(Registers)的多級(jí)數(shù)據(jù)搬運(yùn),利用MUSA異步拷貝指令掩蓋訪存延遲;

Warp級(jí)并行優(yōu)化:完整支持Warp Specialization特性。

目前,基于MUSA架構(gòu)的TileLang原生算子單元測(cè)試覆蓋率已超過(guò)80%,為大規(guī)模應(yīng)用提供了可靠保障。

代碼示例:體驗(yàn)“零門檻”算子遷移

開發(fā)者在完成環(huán)境配置后,可保留原有的import tilelang習(xí)慣,通過(guò)Cython編譯后端直接在MUSA環(huán)境中運(yùn)行TileLang代碼。

以下是一個(gè)基于TileLang-MUSA的高性能矩陣乘法實(shí)現(xiàn)示例:通過(guò)簡(jiǎn)潔明了的語(yǔ)法描述計(jì)算邏輯,編譯器能夠自動(dòng)生成高度優(yōu)化的MUSA內(nèi)核代碼。依托TileLang豐富且經(jīng)過(guò)深度調(diào)優(yōu)的原語(yǔ)算子庫(kù)(primitives),開發(fā)者借助TileLang-MUSA不僅能夠顯著提升編碼效率,更能直接調(diào)用底層硬件的計(jì)算潛力,實(shí)現(xiàn)媲美手工優(yōu)化性能的矩陣運(yùn)算。

importtilelang
importtilelang.languageasT
importtorch
fromtilelang.primitives.gemm.baseimportGemmWarpPolicy


defmatmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):
  @T.prim_func
defmatmul_kernel(
    A: T.Tensor((M, K), dtype),
    B: T.Tensor((K, N), dtype),
    C: T.Tensor((M, N), dtype),
):
withT.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512)as(bx, by):
      T.use_swizzle(panel_size=4, order='col')
      A_shared = T.alloc_shared((block_M, block_K), dtype)
      B_shared = T.alloc_shared((block_K, block_N), dtype)
      C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
      T.clear(C_local)
forkinT.Pipelined(T.ceildiv(K, block_K), num_stages=3):
        T.copy(A[by * block_M, k * block_K], A_shared)
        T.copy(B[k * block_K, bx * block_N], B_shared)
        T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)
      T.copy(C_local, C[by * block_M, bx * block_N])
returnmatmul_kernel


defmain():
  M, N, K, BLOCK_M, BLOCK_N, BLOCK_K =8192,7168,16384,256,256,64
  device ="musa"
  A = torch.randn((M, K), dtype=torch.float16, device=device)
  B = torch.randn((K, N), dtype=torch.float16, device=device)
  program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")


  kernel = tilelang.compile(
    program,
    out_idx=-1,
    target="musa",
    execution_backend="cython",
    verbose=True,
  )
  ref_out = torch.mm(A, B)
  C = kernel(A, B)
  torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)


if__name__ =="__main__":
  main()

*代碼示例

實(shí)測(cè)表現(xiàn):兼顧開發(fā)效率與運(yùn)行性能

TileLang-MUSA的設(shè)計(jì)理念是讓開發(fā)者“寫得快”且“跑得快”。在實(shí)際算子開發(fā)實(shí)踐中,這一目標(biāo)已得到驗(yàn)證。

以大語(yǔ)言模型中至關(guān)重要的FlashAttention-3和GEMM(通用矩陣乘)算子為例,在摩爾線程MTT S5000上的測(cè)試結(jié)果顯示:

開發(fā)效率倍增:相較手寫MUSA C++代碼,使用TileLang-MUSA的代碼量減少了約90%,且代碼邏輯更加清晰,極大降低了開發(fā)與維護(hù)成本。

性能媲美手寫:得益于TileLang-MUSA優(yōu)秀的編譯器優(yōu)化,生成的算子性能在典型配置下,Gemm最高可達(dá)到手寫優(yōu)化版本的95%, FlashAttention-3可以達(dá)到手寫優(yōu)化版本的85%。

自動(dòng)化調(diào)優(yōu):借助TileLang-MUSA的Auto-tuning機(jī)制,開發(fā)者可以在MUSA架構(gòu)的全功能GPU上快速搜索最優(yōu)的分塊策略(Tile Size)和流水線級(jí)數(shù),輕松超越未經(jīng)深度優(yōu)化的基準(zhǔn)實(shí)現(xiàn)。

TileLang-MUSA的推出,為開發(fā)者帶來(lái)了三大核心價(jià)值:

無(wú)縫遷移:TileLang用戶可以近乎零成本地將算子邏輯遷移至摩爾線程GPU;

降低門檻:TileLang-MUSA為不熟悉MUSA指令集的AI工程師提供了高層次的開發(fā)入口,大幅降低了國(guó)產(chǎn)GPU的應(yīng)用門檻;

賦能大模型:TileLang-MUSA通過(guò)支持FlashAttention等關(guān)鍵算子的高效開發(fā),將有力加速大語(yǔ)言模型等前沿AI應(yīng)用在國(guó)產(chǎn)算力平臺(tái)上的部署與落地。

TileLang-MUSA不僅驗(yàn)證了“高層語(yǔ)言+國(guó)產(chǎn)GPU”這一技術(shù)路線的可行性,更為構(gòu)建開放、易用的國(guó)產(chǎn)算力開發(fā)生態(tài)提供了關(guān)鍵工具支撐。

未來(lái)展望:打造基于MUSA的深度學(xué)習(xí)統(tǒng)一平臺(tái)

TileLang-MUSA的開源是摩爾線程構(gòu)建國(guó)產(chǎn)算力生態(tài)的關(guān)鍵一步。以此為起點(diǎn),摩爾線程將持續(xù)推進(jìn)平臺(tái)與生態(tài)建設(shè),致力于打造一個(gè)覆蓋從單算子到完整大模型的國(guó)產(chǎn)算力統(tǒng)一加速平臺(tái):持續(xù)進(jìn)行性能優(yōu)化,開發(fā)更多MUSA架構(gòu)定制擴(kuò)展,使生成代碼性能穩(wěn)定達(dá)到手寫優(yōu)化版本的90%以上;深度集成SGLang等主流AI框架,實(shí)現(xiàn)訓(xùn)練與推理場(chǎng)景的端到端無(wú)縫加速;從單算子優(yōu)化延伸至Transformer、MoE等復(fù)雜模型架構(gòu)的跨算子調(diào)度與全局優(yōu)化;同時(shí)完善調(diào)試和性能分析工具鏈,為開發(fā)者提供全流程支持。

這一切努力,最終都將匯聚于一個(gè)核心目標(biāo):構(gòu)建一個(gè)開放、高效、充滿生命力的國(guó)產(chǎn)算力生態(tài),讓創(chuàng)新的想法在堅(jiān)實(shí)的基石上自由生長(zhǎng)。

點(diǎn)擊下方“閱讀原文”了解TileLang-MUSA開源項(xiàng)目,或直接訪問(wèn):

https://github.com/MooreThreads/tilelang_musa

*以上測(cè)試數(shù)據(jù)均來(lái)自摩爾線程實(shí)驗(yàn)室

關(guān)于摩爾線程

摩爾線程以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。

我們的目標(biāo)是成為具備國(guó)際競(jìng)爭(zhēng)力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5191

    瀏覽量

    135407
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4200

    瀏覽量

    46107
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    279

    瀏覽量

    6446

原文標(biāo)題:摩爾線程開源TileLang-MUSA,以高效算子開發(fā)釋放全功能GPU計(jì)算潛力

文章出處:【微信號(hào):moorethreads,微信公眾號(hào):摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    摩爾線程MTT S5000全面適配Qwen3.5三款新模型

    開源Qwen3.5-397B-A17B之后,阿里再次宣布開源千問(wèn)3.5最新三款中等規(guī)模模型:Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。摩爾
    的頭像 發(fā)表于 02-26 16:23 ?302次閱讀

    摩爾線程快速完成對(duì)Qwen3.5模型全面適配

    2月17日,摩爾線程宣布已在旗艦級(jí)AI訓(xùn)推一體全功能GPU MTT S5000上完成對(duì)阿里最新大模型Qwen3.5的全方位適配。此次支持充分展示了摩爾線程
    發(fā)表于 02-18 08:32 ?163次閱讀

    摩爾線程在MDC 2025重磅發(fā)布全棧創(chuàng)新成果

    12月20日,在首屆MUSA開發(fā)者大會(huì)上,摩爾線程創(chuàng)始人、董事長(zhǎng)兼CEO張建中發(fā)表主題演講,系統(tǒng)展示了以自主MUSA統(tǒng)一架構(gòu)為核心的全棧創(chuàng)新成果,全面展現(xiàn)公司在技術(shù)和生態(tài)上的關(guān)鍵突破與
    的頭像 發(fā)表于 12-22 18:04 ?1448次閱讀

    國(guó)產(chǎn)GPU技術(shù)與生態(tài)雙重突破,摩爾線程舉辦首屆MUSA開發(fā)者大會(huì)

    2025年12月20日,摩爾線程首屆MUSA開發(fā)者大會(huì)(MDC 2025)于北京中關(guān)村國(guó)際創(chuàng)新中心正式開幕。本次大會(huì)以自主計(jì)算創(chuàng)新與開發(fā)者生態(tài)共建為核心議題,吸引2000多名來(lái)自產(chǎn)學(xué)研的專業(yè)人士
    發(fā)表于 12-20 12:45 ?1713次閱讀
    國(guó)產(chǎn)GPU技術(shù)與生態(tài)雙重突破,<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>舉辦首屆<b class='flag-5'>MUSA</b>開發(fā)者大會(huì)

    摩爾線程發(fā)布Torch-MUSA v2.7.0版本

    近日,摩爾線程正式發(fā)布PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)——Torch-MUSA v2.7.0,新版本在功能集成、性能優(yōu)化與硬件支持方面實(shí)現(xiàn)進(jìn)一步突破。Torch-
    的頭像 發(fā)表于 12-04 09:05 ?1114次閱讀

    摩爾線程亮相GOTC 2025全球開源技術(shù)峰會(huì)

    摩爾線程高級(jí)副總裁楊上山在主論壇發(fā)表《摩爾線程全功能GPU原生支持開源生態(tài)》的主題演講,系統(tǒng)闡述了摩爾
    的頭像 發(fā)表于 11-04 10:43 ?2155次閱讀

    擁抱DeepSeek開源生態(tài)| 算能TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊(duì)!

    TPU的TileLang-TPU項(xiàng)目也于近日完成工程驗(yàn)證。TileLang發(fā)布之初,算能聯(lián)合北京大學(xué)、復(fù)旦大學(xué)、山東大學(xué)等高校的科研團(tuán)隊(duì),共同開展TileLang
    的頭像 發(fā)表于 10-03 19:08 ?1411次閱讀
    擁抱DeepSeek<b class='flag-5'>開源</b>生態(tài)| 算能TPU接入<b class='flag-5'>TileLang</b>,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊(duì)!

    摩爾線程發(fā)布Torch-MUSA v2.1.1版本

    近日,摩爾線程發(fā)布其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)——Torch-MUSA v2.1.1。該版本在v2.1.0的基礎(chǔ)上,進(jìn)一步擴(kuò)展了對(duì)大規(guī)模深度學(xué)習(xí)模型訓(xùn)練與推理的支持
    的頭像 發(fā)表于 09-10 11:02 ?1024次閱讀

    摩爾線程吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計(jì)算新高度?

    的分享。GPU 計(jì)算軟件開發(fā)總監(jiān)吳慶登上講臺(tái),發(fā)表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無(wú)限潛能》的演講。他從專業(yè)視角出發(fā),為在場(chǎng)聽眾深入剖析了 MUSA 軟件棧在
    的頭像 發(fā)表于 07-28 13:47 ?6068次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>吳慶詳解 <b class='flag-5'>MUSA</b> 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計(jì)算新高度?

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合(MoE)架構(gòu)的大語(yǔ)言模型混元-A13B。同日,摩爾線程團(tuán)隊(duì)?wèi){借技術(shù)前瞻性,率先完成該模型在全功能GPU的深度適配與高效支持。這一成果充分彰顯了MUSA
    的頭像 發(fā)表于 07-04 14:10 ?893次閱讀

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)的重要升級(jí)。新版本基于MUSA
    的頭像 發(fā)表于 05-11 16:41 ?1595次閱讀

    摩爾線程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團(tuán)隊(duì)在模型發(fā)布當(dāng)天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。這一成果充分展現(xiàn)了MUSA架構(gòu)及全功能G
    的頭像 發(fā)表于 05-07 15:24 ?1011次閱讀

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    架構(gòu)和全功能GPU的強(qiáng)大技術(shù)實(shí)力,摩爾線程迅速響應(yīng)并完成了對(duì)DeepSeek-V3的無(wú)縫升級(jí),實(shí)現(xiàn)了零報(bào)錯(cuò)、零兼容性問(wèn)題的光速部署,充分展現(xiàn)了摩爾線程在AI大模型領(lǐng)域的領(lǐng)先優(yōu)勢(shì)。
    的頭像 發(fā)表于 03-31 11:34 ?1270次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU成功適配Deepseek-V3-0324大模型

    摩爾線程支持阿里云通義千問(wèn)QwQ-32B開源模型

    近日,阿里云團(tuán)隊(duì)正式開源全新推理模型——通義千問(wèn)QwQ-32B。摩爾線程在該模型發(fā)布后2小時(shí)內(nèi),迅速且高效完成了對(duì)千問(wèn)QwQ-32B的支持。
    的頭像 發(fā)表于 03-07 17:48 ?1348次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>支持阿里云通義千問(wèn)QwQ-32B<b class='flag-5'>開源</b>模型

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),摩爾線程迅速響應(yīng),并在短時(shí)間內(nèi),成功實(shí)現(xiàn)對(duì)DeepSeek各個(gè)開源
    的頭像 發(fā)表于 03-04 10:06 ?1037次閱讀