在人工智能加速邁向大模型與智能體時(shí)代的今天,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)已經(jīng)成為推動(dòng)智能系統(tǒng)演化的關(guān)鍵技術(shù)。隨著強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)模不斷擴(kuò)大,對(duì)底層算力提出了前所未有的挑戰(zhàn)。近日,上海創(chuàng)智學(xué)院 AI Infra 團(tuán)隊(duì)發(fā)布的 siiRL 2.0,以其卓越特性為強(qiáng)化學(xué)習(xí)的發(fā)展帶來了新的突破,沐曦則憑借自身優(yōu)勢(shì)為 siiRL 2.0 的升級(jí)提供了堅(jiān)實(shí)支撐,共同推動(dòng)強(qiáng)化學(xué)習(xí)正式邁入 “千卡級(jí)”時(shí)代。
siiRL:全分布式架構(gòu)的顛覆性突破
上海創(chuàng)智學(xué)院AI Infra團(tuán)隊(duì)發(fā)布siiRL 2.0,聚焦性能、生態(tài)與前沿探索全面升級(jí):
卓越性能與擴(kuò)展性
基于全分布式架構(gòu),實(shí)現(xiàn)千卡級(jí)近線性擴(kuò)展與業(yè)界領(lǐng)先吞吐,性能在7B~235B(Dense/MoE)等大規(guī)模模型上穩(wěn)定驗(yàn)證。
自主可控,擁抱國(guó)產(chǎn)算力
全面適配多家主流國(guó)產(chǎn)芯片并完成千卡級(jí)擴(kuò)展驗(yàn)證,為AI基礎(chǔ)設(shè)施夯實(shí)自主可控的算力底座。
靈活易用與生態(tài)兼容
獨(dú)創(chuàng)DAG工作流支持無代碼算法實(shí)驗(yàn),兼容Megatron/FSDP等主流后端,極大提升研發(fā)效率。
面向前沿,支持多智能體研究
內(nèi)建強(qiáng)大的多智能體協(xié)同訓(xùn)練框架,為探索“智能涌現(xiàn)”等前沿課題提供關(guān)鍵基礎(chǔ)設(shè)施。

圖 1:siiRL架構(gòu)概覽
技術(shù)論文:https://arxiv.org/abs/2507.13833
開源代碼倉(cāng)庫(kù):https://github.com/sii-research/siiRL
在本次siiRL的升級(jí)適配工作中,沐曦做了一系列針對(duì)性優(yōu)化:
siiRL框架高效適配
基于沐曦自研的MXMACA軟件棧,已經(jīng)完整適配了siiRL需要的所有后端引擎(Vllm/Pytorch fsdp/Megatron-LM/Ray)以及深度優(yōu)化的mccl高性能通信庫(kù),不需要其他額外的適配工作,實(shí)現(xiàn)了siiRL框架的高效適配。
超節(jié)點(diǎn)scale up
沐曦Dragonfly超節(jié)點(diǎn),提供了64卡的光互連高速通信帶寬。在訓(xùn)練過程中,通過設(shè)置fsdp_size=64,可以充分利用超節(jié)點(diǎn)內(nèi)的帶寬,提升模型的訓(xùn)練效率。
顯存優(yōu)化
通過設(shè)置模型參數(shù)offload選項(xiàng),在共置集群上,有效降低了rollout和training階段的峰值顯存,可以采用更優(yōu)的切分方式,進(jìn)一步提升計(jì)算效率。
分布式策略調(diào)整
結(jié)合實(shí)際負(fù)載與硬件拓?fù)?,?yōu)化了不同模型的分布式訓(xùn)練參數(shù)切分方式,并調(diào)整了親和性配置,以提升通信效率。
通過上述優(yōu)化,siiRL框架在沐曦超節(jié)點(diǎn)集群上實(shí)現(xiàn)了從64卡到1024卡的穩(wěn)定擴(kuò)展,系統(tǒng)保持了超過92%的高線性度拓展效率。在模型精度上,與國(guó)際主流生態(tài) GPU的訓(xùn)練結(jié)果相比,沐曦超節(jié)點(diǎn)集群在驗(yàn)證集上的平均絕對(duì)誤差控制在0.5%以內(nèi),滿足實(shí)際應(yīng)用場(chǎng)景的精度要求。

圖 2:siiRL在沐曦超節(jié)點(diǎn)集群上的擴(kuò)展性評(píng)估,
展示了64卡到1024GPU規(guī)模下的高線性擴(kuò)展能力
隨著 AI 技術(shù)逐漸成為國(guó)家科技競(jìng)爭(zhēng)的核心,構(gòu)建自主可控的算力基礎(chǔ)設(shè)施已經(jīng)成為產(chǎn)業(yè)發(fā)展的必然選擇。沐曦與上海創(chuàng)智學(xué)院 AI Infra 團(tuán)隊(duì)的攜手合作,不僅驗(yàn)證了國(guó)產(chǎn) GPU 在前沿 AI 應(yīng)用上的可行性與先進(jìn)性,更為中國(guó)科研機(jī)構(gòu)、產(chǎn)業(yè)界提供了面向未來的堅(jiān)實(shí)算力底座。沐曦將持續(xù)與產(chǎn)學(xué)研伙伴深度協(xié)作,推動(dòng)大模型框架與國(guó)產(chǎn) GPU 的深度適配和生態(tài)完善,加速?gòu)?qiáng)化學(xué)習(xí)、大模型、智能體等關(guān)鍵領(lǐng)域的創(chuàng)新應(yīng)用落地。
關(guān)于沐曦
沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。
-
gpu
+關(guān)注
關(guān)注
28文章
5199瀏覽量
135530 -
沐曦
+關(guān)注
關(guān)注
1文章
80瀏覽量
1834 -
大模型
+關(guān)注
關(guān)注
2文章
3660瀏覽量
5196
原文標(biāo)題:強(qiáng)化學(xué)習(xí)進(jìn)入“千卡級(jí)”時(shí)代,沐曦助力 siiRL 2.0 全面升級(jí)
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
沐曦曦云C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型
沐曦股份CXO預(yù)科班2026冬令營(yíng)圓滿收官
沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型
沐曦股份與江南大學(xué)建立聯(lián)合研究中心
沐曦與Arm、熠知一同到訪清華大學(xué)交流座談
沐曦受邀出席第二屆開源產(chǎn)業(yè)生態(tài)大會(huì)
沐曦股份在上海證券交易所科創(chuàng)板掛牌上市
沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型
DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地
沐曦助力上海創(chuàng)智學(xué)院siiRL 2.0全面升級(jí)
評(píng)論