91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦曦云C系列產(chǎn)品已支持TileLang

沐曦MetaX ? 來源:沐曦MetaX ? 2025-10-14 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一門由TileLang社區(qū)主導(dǎo)開發(fā)的編程語言,正悄然改變國產(chǎn)GPU的生態(tài)格局。

近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。TileLang項(xiàng)目是由TileLang社區(qū)主導(dǎo)開發(fā),旨在簡(jiǎn)化高性能GPU/CPU內(nèi)核的開發(fā)。它采用Python式語法,讓開發(fā)者能夠?qū)W⒂谔岣呱a(chǎn)力,而無需犧牲實(shí)現(xiàn)最佳性能所需的底層優(yōu)化。

1生態(tài)破局:國產(chǎn)算力的協(xié)同前行

TileLang作為一種專門用來開發(fā)GPU內(nèi)核的領(lǐng)域?qū)S谜Z言,性能上可以對(duì)標(biāo)國際主流生態(tài)。DeepSeek官方推薦開發(fā)者使用該版本進(jìn)行實(shí)驗(yàn)性開發(fā),因其在調(diào)試便捷性與迭代速度上具備明顯優(yōu)勢(shì)。這一特性對(duì)正在積極構(gòu)建軟件生態(tài)的國產(chǎn)GPU廠商來說,無疑是重要機(jī)遇。

沐曦率先跟進(jìn)這一機(jī)遇。沐曦AI編譯器團(tuán)隊(duì)和TileLang社區(qū)合作已提前參與該項(xiàng)目,探討沐曦GPU與TileLang的適配。 這種與開源社區(qū)的緊密合作,顯著加快了沐曦曦云C系列產(chǎn)品融入主流開發(fā)生態(tài)的速度。

2生態(tài)適配:從追趕者到參與者

在算力領(lǐng)域,硬件性能只是基礎(chǔ),軟件生態(tài)才是決定成敗的關(guān)鍵。沐曦MXMACA軟件棧作為連接硬件與應(yīng)用的橋梁,其兼容性與性能直接關(guān)系到用戶體驗(yàn)。目前沐曦MXMACA軟件棧已實(shí)現(xiàn)對(duì)主流國際主流生態(tài)的兼容,原生支持PyTorch、TensorFlow及國產(chǎn)框架。這種兼容性設(shè)計(jì)讓開發(fā)者能夠幾乎無成本地將現(xiàn)有項(xiàng)目遷移到MXMACA軟件棧。

如今,MXMACA對(duì)TileLang社區(qū)的快速支持更進(jìn)一步,體現(xiàn)了沐曦在開源生態(tài)建設(shè)上的敏銳度。TileLang作為重要的AI計(jì)算編譯器項(xiàng)目,其對(duì)MXMACA的支持不僅減少了開發(fā)者適配工作量,更打通了沐曦硬件與現(xiàn)代化AI編譯工具鏈的通道。

在WAIC 2025期間,沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建曾明確表示,“GPU芯片的價(jià)值發(fā)揮離不開軟件驅(qū)動(dòng),從底層驅(qū)動(dòng)、中間框架到上層應(yīng)用,形成完整鏈條”。 這一理念正在通過實(shí)際的開源貢獻(xiàn)得以踐行。

3開發(fā)效率:TileLang的革命性突破

TileLang最顯著的優(yōu)勢(shì)在于大幅提升GPU內(nèi)核的開發(fā)效率。TileLang實(shí)現(xiàn)FlashAttention算子開發(fā),代碼量從500+行減少至80行,并保持了與官方版本持平的性能。這種代碼量的大幅減少不僅降低了開發(fā)門檻,也提高了維護(hù)性和可讀性。

有開發(fā)者感嘆TileLang是一種非常優(yōu)雅的語言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%。這種開發(fā)效率與性能兼得的特點(diǎn),正是TileLang引發(fā)關(guān)注的重要原因。

TileLang提供了三個(gè)不同層次的編程接口,滿足從初學(xué)者到專家不同水平開發(fā)者的需求。 這種分層設(shè)計(jì)使曦云C系列的開發(fā)者能夠根據(jù)自身熟練程度,選擇合適的切入點(diǎn)進(jìn)行算子開發(fā)與優(yōu)化。

4實(shí)戰(zhàn)驗(yàn)證:從原型到產(chǎn)品的性能表現(xiàn)

DeepSeek選擇TileLang并非偶然,而是基于實(shí)際性能驗(yàn)證。具體的性能數(shù)據(jù)來自TileLang以DeepSeek發(fā)布的FlashMLA內(nèi)核作為評(píng)測(cè)基準(zhǔn)的實(shí)驗(yàn):在英偉達(dá)H100上的MLA解碼速度,TileLang編寫的內(nèi)核做到與FlashMLA相當(dāng)。這一結(jié)果證明了TileLang在性能上具備與國際先進(jìn)產(chǎn)品競(jìng)爭(zhēng)的實(shí)力。DeepSeek v3.2也驗(yàn)證了TileLang確實(shí)可以用來訓(xùn)練模型。 這一實(shí)踐意義重大,表明了TileLang已從實(shí)驗(yàn)階段走向?qū)嶋H生產(chǎn)應(yīng)用。

沐曦開源的TileLang已發(fā)布在gitee倉庫【mcTileLang】,基于TileLang已有的優(yōu)化效果詳細(xì)性能如下:

70ef6956-9e0e-11f0-8c8f-92fbcf53809c.png

表1 測(cè)試數(shù)據(jù)及性能

可以預(yù)期在常用核心算子上將有與國際領(lǐng)先產(chǎn)品競(jìng)爭(zhēng)甚至超越的表現(xiàn),期待開源社區(qū)一起共建和持續(xù)更新。

4在線體驗(yàn):模力方舟曦云C系列體驗(yàn)

為了讓開發(fā)者更便捷地體驗(yàn)TileLang在曦云C系列上的性能表現(xiàn),沐曦已在模力方舟平臺(tái)提供在線體驗(yàn)環(huán)境。這一平臺(tái)將提供預(yù)配置的開發(fā)環(huán)境,讓開發(fā)者無需自行搭建硬件平臺(tái),即可體驗(yàn)TileLang在曦云C系列上的算子開發(fā)和優(yōu)化過程。

從芯片到編譯器,從硬件到生態(tài),沐曦曦云C系列產(chǎn)品與TileLang的快速適配展現(xiàn)了中國算力產(chǎn)業(yè)的新思路:不再單點(diǎn)突破,而是攜手開源生態(tài)共進(jìn)。

沐曦曦云C系列產(chǎn)品在TileLang社區(qū)的支持只是國產(chǎn)GPU漫長征程中的一小步,卻是生態(tài)建設(shè)上質(zhì)變的一大步。當(dāng)開發(fā)者們?cè)谀AΨ街燮脚_(tái)上輕點(diǎn)鼠標(biāo),就能在曦云系列上運(yùn)行優(yōu)化后的TileLang代碼,那種生態(tài)隔閡的堅(jiān)冰正悄然消融。

未來的算力格局,注定是多元共存、開源生態(tài)共榮的圖景。

關(guān)于沐曦

沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135507
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4209

    瀏覽量

    46172
  • 沐曦
    +關(guān)注

    關(guān)注

    1

    文章

    80

    瀏覽量

    1826
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3276

原文標(biāo)題:沐曦已支持TileLang,性能比肩國際主流

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份C系列GPU全面適配通義千問Qwen3.5三款新模型

    今日,通義千問團(tuán)隊(duì)正式開源發(fā)布Qwen3.5系列中等規(guī)模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三個(gè)版本。股份旗下
    的頭像 發(fā)表于 02-28 10:05 ?443次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU全面適配通義千問Qwen3.5三款新模型

    股份C系列GPU深度適配通義千問Qwen3.5模型

    今天,通義千問今天正式發(fā)布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的開放權(quán)重版本。股份
    的頭像 發(fā)表于 02-26 14:26 ?471次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU深度適配通義千問Qwen3.5模型

    C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開源MiniMax M2.5模型。技術(shù)團(tuán)隊(duì)依托MXMACA軟件棧,在24小時(shí)內(nèi)完成C500/
    的頭像 發(fā)表于 02-26 14:19 ?700次閱讀

    股份CXO預(yù)科班2026冬令營圓滿收官

    2月6日,由集成電路(上海)股份有限公司(股票代碼:688802,簡(jiǎn)稱“股份”)主辦、之江實(shí)驗(yàn)室大力支持、
    的頭像 發(fā)表于 02-25 16:29 ?1086次閱讀

    C系列GPU Day 0 適配智譜全新一代大模型GLM-5

    ,支持模型“零代碼”或極低改造成本遷移。MXMACA已于2025年2月正式開源,目前用戶規(guī)模突破25萬人。 C
    的頭像 發(fā)表于 02-12 10:53 ?836次閱讀
    <b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU Day 0 適配智譜全新一代大模型GLM-5

    C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型

    今天,智譜AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實(shí)現(xiàn)文檔解析能力新標(biāo)桿。股份C500/
    的頭像 發(fā)表于 02-03 11:36 ?683次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>500/<b class='flag-5'>C</b>550 GPU<b class='flag-5'>產(chǎn)品</b>適配智譜GLM-OCR模型

    C600 GPU產(chǎn)品適配階躍星辰基座模型Step 3.5 Flash

    今天,階躍星辰技術(shù)團(tuán)隊(duì)發(fā)布并開源最新旗艦基座模型 Step 3.5 Flash。股份實(shí)現(xiàn)C
    的頭像 發(fā)表于 02-02 14:44 ?390次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>600 GPU<b class='flag-5'>產(chǎn)品</b>適配階躍星辰基座模型Step 3.5 Flash

    C500/C550 GPU產(chǎn)品適配騰訊混元圖像3.0圖生圖模型

    近日,騰訊混元團(tuán)隊(duì)宣布開源混元圖像3.0圖生圖版本(HunyuanImage 3.0-Instruct),股份C500/
    的頭像 發(fā)表于 02-02 14:43 ?383次閱讀

    C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,C
    的頭像 發(fā)表于 01-30 10:19 ?831次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>500/<b class='flag-5'>C</b>550 GPU<b class='flag-5'>產(chǎn)品</b>適配PaddleOCR-VL-1.5模型

    股份正式推出索X系列全新GPU品牌與產(chǎn)品

    1月27日,股份(股票代碼:688802.SH)正式推出索X系列全新GPU品牌與產(chǎn)品線。該系列產(chǎn)品
    的頭像 發(fā)表于 01-28 17:14 ?639次閱讀

    股份C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

    12月8日智譜AI發(fā)布并開源 GLM-4.6V 系列多模態(tài)大模型,股份C
    的頭像 發(fā)表于 12-17 14:28 ?625次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

    DLInfer聯(lián)手股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地

    近期,上海 AI 實(shí)驗(yàn)室 DeepLink 團(tuán)隊(duì)推出的 DLInfer 通過支持 LMDeploy 主流模型推理,助力股份
    的頭像 發(fā)表于 12-09 14:55 ?716次閱讀
    DLInfer聯(lián)手<b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地

    首款全國產(chǎn)通用GPU芯片發(fā)布 集成推出C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國產(chǎn)通用GPU——C600,這標(biāo)志著國產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日?qǐng)?bào)報(bào)道顯示
    的頭像 發(fā)表于 10-19 20:04 ?4.6w次閱讀

    硅基流動(dòng)攜手首發(fā)基于的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合集成電路(上海)股份有限公司(簡(jiǎn)稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?1955次閱讀

    C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試

    近日,C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1837次閱讀