近日,摩爾線程正式發(fā)布PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能集成、性能優(yōu)化與硬件支持方面實現(xiàn)進一步突破。Torch-MUSA在短短一個月內,連續(xù)完成v2.5.0和v2.7.0兩次版本更新,充分體現(xiàn)了摩爾線程在MUSA生態(tài)建設上的持續(xù)投入與快速迭代能力。
▼Torch-MUSA開源地址:
https://github.com/MooreThreads/torch_musa
自v2.5.0起,Torch-MUSA版本號已與PyTorch主版本號保持同步,便于開發(fā)者進行版本識別與管理。新版本進一步集成muSolver與muFFT等計算加速庫,顯著提升復雜計算任務的執(zhí)行效率;同時新增對統(tǒng)一內存設備(Unified Memory)的UMM支持,有效優(yōu)化內存使用效率。
此外,新版本繼續(xù)保持與最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本進行編譯。目前Torch-MUSA專屬支持的算子總數(shù)已超過1050個,系統(tǒng)在性能與穩(wěn)定性方面均實現(xiàn)進一步提升,為大模型訓練與推理提供了更高效、更可靠的底層支持。
v2.7.0版本主要更新內容
新增特性
▼動態(tài)雙精度轉換(Dynamic Double Cast)
用戶可通過設置環(huán)境變量export TORCH_USE_MUSA_DOUBLE_CAST=1,開啟Float64數(shù)據(jù)類型算子的動態(tài)轉換功能,torch_musa將使用float32作為計算數(shù)據(jù)類型。
▼分布式檢查點(Distributed Checkpoint)
支持從多個rank并行加載和保存模型,顯著加速檢查點的保存與加載過程。目前已支持分布式檢查點的異步保存功能。
功能增強
▼新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多個實用算子,MUSA專屬支持的算子總數(shù)突破1050個。
▼通過升級PyTorch底層支持,torch.compile與AOTInductor功能進一步增強;
▼默認啟用TF32計算模式,提升浮點運算效率;
▼優(yōu)化性能分析工具Kineto的穩(wěn)定性,并將其適配版本升級至2.7.0;
▼繼續(xù)優(yōu)化FSDP2流水線并行策略,進一步降低內存占用。
v2.5.0版本主要更新內容
新增特性
▼新增muFFT與muSolver庫集成,大幅擴展計算能力;
▼在面向邊緣計算的SoC設備中支持統(tǒng)一內存管理,基于Arm 架構的UMA(統(tǒng)一內存尋址)設計,實現(xiàn)GPU與CPU共享同一物理內存空間,顯著降低模型運行過程中的內存開銷,具體包括:
消除GPU端重復內存分配;
減少主機與設備間的內存拷貝;
GPU可直接訪問由CPU分配器申請的內存空間。
算子擴展與性能優(yōu)化
▼新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個算子;
▼新增基礎 Sparse(CSR) 操作支持;
▼擴充量化算子支持范圍;
▼修復torch.norm形狀錯誤問題;
▼支持reduce_sum的uint8輸入與int64輸出;
▼C++擴展新增支持tensor.is_musa()方法;
▼修復空輸入下argmax/argmin的異常行為;
▼優(yōu)化var/std、pad、convolution3d、layer_norm等操作的執(zhí)行效率。
系統(tǒng)功能增強
▼開放torch.musa.mccl.version()接口;
▼支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle;
▼優(yōu)化FSDP2流水線并行策略,降低訓練內存占用。
未來計劃
Torch-MUSA將繼續(xù)跟進PyTorch的版本更新,計劃下一版本支持PyTorch 2.9.0,并進一步優(yōu)化性能與功能,持續(xù)構建和完善基于MUSA架構國產(chǎn)全功能GPU的深度學習生態(tài)。
▼ 關于摩爾線程
摩爾線程以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業(yè)的數(shù)智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
AI
+關注
關注
91文章
39820瀏覽量
301485 -
模型
+關注
關注
1文章
3755瀏覽量
52118 -
pytorch
+關注
關注
2文章
813瀏覽量
14856 -
摩爾線程
+關注
關注
2文章
279瀏覽量
6464
原文標題:摩爾線程發(fā)布Torch-MUSA v2.7.0,持續(xù)增強AI模型訓練與推理支持
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
摩爾線程快速完成對Qwen3.5模型全面適配
摩爾線程正式開源TileLang-MUSA項目
摩爾線程在MDC 2025重磅發(fā)布全棧創(chuàng)新成果
摩爾線程發(fā)布大模型訓練仿真工具SimuMax v1.0
摩爾線程發(fā)布Torch-MUSA v2.1.1版本
摩爾線程發(fā)布圖形顯卡驅動程序v310.120
摩爾線程吳慶詳解 MUSA 軟件棧:以技術創(chuàng)新釋放 KUAE 集群潛能,引領 GPU 計算新高度?
摩爾線程發(fā)布圖形顯卡驅動程序v300.110.1
摩爾線程發(fā)布圖形顯卡驅動程序v300.110
摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0
摩爾線程Linux驅動v3.0.0發(fā)布
摩爾線程發(fā)布圖形顯卡驅動程序v290.100.2
摩爾線程GPU成功適配Deepseek-V3-0324大模型
摩爾線程發(fā)布Torch-MUSA v2.7.0版本
評論