久久精品人妻一区二区三区a,色资源在线亚洲精品

近日，基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力，沐曦在曦云C500單卡GPU上成功實現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績，相比社區(qū)官方數(shù)據(jù)提升20%以上。

相比國際高端GPU八卡滿血版部署方案，本項目在單并發(fā)性能上具有極高的性價比。

KTransformers項目介紹

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清華大學(xué) KVCache.AI 團(tuán)隊聯(lián)合趨境科技開源的一套輕量化高性能模型推理框架，能夠在計算資源受限的場景下，通過 CPU/GPU 異構(gòu)推理的方式更快速、更高效地實現(xiàn)大模型的本地推理。KTransformers旨在作為一個開放的平臺，用于試驗創(chuàng)新的大型語言模型（LLM）推理優(yōu)化方案。同時，KTransformers也計劃演進(jìn)成本地化中小并發(fā)場景下針對稀疏MoE模型最具性價比的開源推理引擎，以及成為一個算子級優(yōu)化的集成實驗平臺。沐曦正在做的工作非常符合開源社區(qū)和KTransformers開源項目的發(fā)展。

開源合作內(nèi)容介紹

沐曦和KVCache.AI團(tuán)隊合作，通過對KTransformers模型框架進(jìn)行細(xì)致的分析和調(diào)整，團(tuán)隊成功達(dá)成了曦云C500與KTransformers的無縫對接，為進(jìn)一步性能優(yōu)化奠定了堅實的基礎(chǔ)。

完成基本功能適配后，沐曦研發(fā)團(tuán)隊繼續(xù)對整個框架進(jìn)行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計算特點和性能瓶頸，結(jié)合曦云C500的優(yōu)勢，采用了一系列先進(jìn)的技術(shù)和算法，詳細(xì)如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運算能力，提升推理性能；

3配合自動/手工算子融合技術(shù)，高效的FP16/BF16精度Marlin算子（W4A16），以及經(jīng)過深度優(yōu)化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升，更體現(xiàn)了開源共創(chuàng)的價值：不同的團(tuán)隊和開發(fā)者通過資源共享、經(jīng)驗交流，共同推動技術(shù)的進(jìn)步。沐曦和清華大學(xué)KVCache.AI團(tuán)隊的合作就是很好的例子，通過開源倉庫匯聚了各自的優(yōu)勢，實現(xiàn)了技術(shù)上的突破，也為后續(xù)持續(xù)在開源社區(qū)推理優(yōu)化提供了合作基礎(chǔ)。

通過開源社區(qū)的共同努力，KTransformers將不斷提升其性能和功能，為更多的用戶提供優(yōu)質(zhì)的服務(wù)。同時，這也將促進(jìn)整個人工智能行業(yè)的發(fā)展，推動技術(shù)的不斷創(chuàng)新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個開始，在開源共創(chuàng)的道路上，我們將迎來更多的驚喜和突破，共同開創(chuàng)國產(chǎn)算力生態(tài)和人工智能的無限未來。

關(guān)于沐曦

沐曦致力于為異構(gòu)計算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產(chǎn)品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP，擁有完全自主的指令集和架構(gòu)，配以兼容主流GPU生態(tài)的完整軟件棧（MXMACA），具備高能效和高通用性的天然優(yōu)勢，能夠為客戶構(gòu)建軟硬件一體的全面生態(tài)解決方案，是“雙碳”背景下推動數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級的算力基石。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴