一門由TileLang社區(qū)主導(dǎo)開發(fā)的編程語言,正悄然改變國產(chǎn)GPU的生態(tài)格局。
近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。TileLang項(xiàng)目是由TileLang社區(qū)主導(dǎo)開發(fā),旨在簡(jiǎn)化高性能GPU/CPU內(nèi)核的開發(fā)。它采用Python式語法,讓開發(fā)者能夠?qū)W⒂谔岣呱a(chǎn)力,而無需犧牲實(shí)現(xiàn)最佳性能所需的底層優(yōu)化。
1生態(tài)破局:國產(chǎn)算力的協(xié)同前行
TileLang作為一種專門用來開發(fā)GPU內(nèi)核的領(lǐng)域?qū)S谜Z言,性能上可以對(duì)標(biāo)國際主流生態(tài)。DeepSeek官方推薦開發(fā)者使用該版本進(jìn)行實(shí)驗(yàn)性開發(fā),因其在調(diào)試便捷性與迭代速度上具備明顯優(yōu)勢(shì)。這一特性對(duì)正在積極構(gòu)建軟件生態(tài)的國產(chǎn)GPU廠商來說,無疑是重要機(jī)遇。
沐曦率先跟進(jìn)這一機(jī)遇。沐曦AI編譯器團(tuán)隊(duì)和TileLang社區(qū)合作已提前參與該項(xiàng)目,探討沐曦GPU與TileLang的適配。 這種與開源社區(qū)的緊密合作,顯著加快了沐曦曦云C系列產(chǎn)品融入主流開發(fā)生態(tài)的速度。
2生態(tài)適配:從追趕者到參與者
在算力領(lǐng)域,硬件性能只是基礎(chǔ),軟件生態(tài)才是決定成敗的關(guān)鍵。沐曦MXMACA軟件棧作為連接硬件與應(yīng)用的橋梁,其兼容性與性能直接關(guān)系到用戶體驗(yàn)。目前沐曦MXMACA軟件棧已實(shí)現(xiàn)對(duì)主流國際主流生態(tài)的兼容,原生支持PyTorch、TensorFlow及國產(chǎn)框架。這種兼容性設(shè)計(jì)讓開發(fā)者能夠幾乎無成本地將現(xiàn)有項(xiàng)目遷移到MXMACA軟件棧。
如今,MXMACA對(duì)TileLang社區(qū)的快速支持更進(jìn)一步,體現(xiàn)了沐曦在開源生態(tài)建設(shè)上的敏銳度。TileLang作為重要的AI計(jì)算編譯器項(xiàng)目,其對(duì)MXMACA的支持不僅減少了開發(fā)者適配工作量,更打通了沐曦硬件與現(xiàn)代化AI編譯工具鏈的通道。
在WAIC 2025期間,沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建曾明確表示,“GPU芯片的價(jià)值發(fā)揮離不開軟件驅(qū)動(dòng),從底層驅(qū)動(dòng)、中間框架到上層應(yīng)用,形成完整鏈條”。 這一理念正在通過實(shí)際的開源貢獻(xiàn)得以踐行。
3開發(fā)效率:TileLang的革命性突破
TileLang最顯著的優(yōu)勢(shì)在于大幅提升GPU內(nèi)核的開發(fā)效率。TileLang實(shí)現(xiàn)FlashAttention算子開發(fā),代碼量從500+行減少至80行,并保持了與官方版本持平的性能。這種代碼量的大幅減少不僅降低了開發(fā)門檻,也提高了維護(hù)性和可讀性。
有開發(fā)者感嘆TileLang是一種非常優(yōu)雅的語言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%。這種開發(fā)效率與性能兼得的特點(diǎn),正是TileLang引發(fā)關(guān)注的重要原因。
TileLang提供了三個(gè)不同層次的編程接口,滿足從初學(xué)者到專家不同水平開發(fā)者的需求。 這種分層設(shè)計(jì)使曦云C系列的開發(fā)者能夠根據(jù)自身熟練程度,選擇合適的切入點(diǎn)進(jìn)行算子開發(fā)與優(yōu)化。
4實(shí)戰(zhàn)驗(yàn)證:從原型到產(chǎn)品的性能表現(xiàn)
DeepSeek選擇TileLang并非偶然,而是基于實(shí)際性能驗(yàn)證。具體的性能數(shù)據(jù)來自TileLang以DeepSeek發(fā)布的FlashMLA內(nèi)核作為評(píng)測(cè)基準(zhǔn)的實(shí)驗(yàn):在英偉達(dá)H100上的MLA解碼速度,TileLang編寫的內(nèi)核做到與FlashMLA相當(dāng)。這一結(jié)果證明了TileLang在性能上具備與國際先進(jìn)產(chǎn)品競(jìng)爭(zhēng)的實(shí)力。DeepSeek v3.2也驗(yàn)證了TileLang確實(shí)可以用來訓(xùn)練模型。 這一實(shí)踐意義重大,表明了TileLang已從實(shí)驗(yàn)階段走向?qū)嶋H生產(chǎn)應(yīng)用。
沐曦開源的TileLang已發(fā)布在gitee倉庫【mcTileLang】,基于TileLang已有的優(yōu)化效果詳細(xì)性能如下:

表1 測(cè)試數(shù)據(jù)及性能
可以預(yù)期在常用核心算子上將有與國際領(lǐng)先產(chǎn)品競(jìng)爭(zhēng)甚至超越的表現(xiàn),期待開源社區(qū)一起共建和持續(xù)更新。
4在線體驗(yàn):模力方舟曦云C系列體驗(yàn)
為了讓開發(fā)者更便捷地體驗(yàn)TileLang在曦云C系列上的性能表現(xiàn),沐曦已在模力方舟平臺(tái)提供在線體驗(yàn)環(huán)境。這一平臺(tái)將提供預(yù)配置的開發(fā)環(huán)境,讓開發(fā)者無需自行搭建硬件平臺(tái),即可體驗(yàn)TileLang在曦云C系列上的算子開發(fā)和優(yōu)化過程。
從芯片到編譯器,從硬件到生態(tài),沐曦曦云C系列產(chǎn)品與TileLang的快速適配展現(xiàn)了中國算力產(chǎn)業(yè)的新思路:不再單點(diǎn)突破,而是攜手開源生態(tài)共進(jìn)。
沐曦曦云C系列產(chǎn)品在TileLang社區(qū)的支持只是國產(chǎn)GPU漫長征程中的一小步,卻是生態(tài)建設(shè)上質(zhì)變的一大步。當(dāng)開發(fā)者們?cè)谀AΨ街燮脚_(tái)上輕點(diǎn)鼠標(biāo),就能在曦云系列上運(yùn)行優(yōu)化后的TileLang代碼,那種生態(tài)隔閡的堅(jiān)冰正悄然消融。
未來的算力格局,注定是多元共存、開源生態(tài)共榮的圖景。
關(guān)于沐曦
沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。
-
gpu
+關(guān)注
關(guān)注
28文章
5196瀏覽量
135507 -
開源
+關(guān)注
關(guān)注
3文章
4209瀏覽量
46172 -
沐曦
+關(guān)注
關(guān)注
1文章
80瀏覽量
1826 -
DeepSeek
+關(guān)注
關(guān)注
2文章
835瀏覽量
3276
原文標(biāo)題:沐曦已支持TileLang,性能比肩國際主流
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
沐曦股份曦云C系列GPU全面適配通義千問Qwen3.5三款新模型
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
沐曦曦云C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型
沐曦股份CXO預(yù)科班2026冬令營圓滿收官
沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型
沐曦曦云C600 GPU產(chǎn)品適配階躍星辰基座模型Step 3.5 Flash
沐曦曦云C500/C550 GPU產(chǎn)品適配騰訊混元圖像3.0圖生圖模型
沐曦股份正式推出曦索X系列全新GPU品牌與產(chǎn)品線
DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地
沐曦曦云C系列產(chǎn)品已支持TileLang
評(píng)論