近日,騰訊混元團隊宣布開源混元圖像3.0圖生圖版本(HunyuanImage 3.0-Instruct),沐曦股份曦云C500/C550 24小時內完成適配,為國內首批適配該模型的國產算力。
此次高效適配得益于沐曦自研MXMACA軟件棧的良好兼容性和適配能力。作為沐曦“自主GPGPU硬件+全棧軟件體系”的關鍵協(xié)同載體,MXMACA承擔著連接硬件算力單元與上層應用生態(tài)的核心紐帶作用,覆蓋底層驅動、用戶態(tài)接口、編譯器、算子適配、訓練框架、推理框架、行業(yè)場景優(yōu)化等全鏈路能力,是支撐國產GPU生態(tài)落地與行業(yè)賦能的算力基座。
關于騰訊混元圖像3.0圖生圖
混元圖像3.0圖生圖支持多樣化的圖片編輯與多圖融合能力,包括增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯功能,以及將多張照片中的元素提取出來合成新圖片的能力。對于普通用戶,該模型可用于制作表情包、虛擬人物合拍、社交分享等日常場景。對于專業(yè)用戶,它能夠助力電商海報設計、游戲角色定制、創(chuàng)意圖片制作等專業(yè)領域,顯著提升創(chuàng)作效率。
混元圖像3.0圖生圖版本基于混元圖像3.0的原生多模態(tài)架構構建,將文本理解、視覺理解與圖像生成深度融合于同一模型中。作為原生多模態(tài)模型,混元圖像3.0圖生圖核心創(chuàng)新在于其“先思考,后編輯”的工作流程。當接收到用戶輸入的圖片和提示詞后,模型會首先理解圖像內容,然后基于提示詞進行推理,確定需要編輯的區(qū)域、詳細步驟以及需要保留的區(qū)域,最終形成更加詳細的編輯指令。
混元圖像3.0圖生圖基于80B總參數(shù)規(guī)模(激活參數(shù)約13B)的混合專家原生多模態(tài)架構,在處理圖像編輯任務時展現(xiàn)出強大的推理能力和精準的編輯效果。訓練過程中,混元團隊構建了千萬量級的圖生圖數(shù)據(jù),覆蓋80多個任務,并注入了思維鏈數(shù)據(jù),使模型能夠學會先分析用戶圖像和意圖,再輸出詳細編輯指令。后訓練階段采用自研MixGRPO算法,高效對齊用戶偏好,大幅提升了指令響應和非編輯區(qū)域保持一致的效果。
最新全球權威大模型競技場LMArena的圖像編輯(Image Edit)榜單中,混元圖像3.0圖生圖進入第一梯隊,成為全球最強的開源圖生圖模型。
在最新的LMArena圖片編輯榜單上,騰訊混元圖像3.0圖生圖位列全球第七,也是前七名里面唯一開源的模型。LMArena官方X祝賀混元圖像3.0圖生圖“在圖片編輯磅榜單中與Nano-Banana和Seedream-4.5等表現(xiàn)相當”。這一成績來自于對模型圖像編輯能力的全面盲測評估,包括指令遵循、編輯精確度和輸出質量等多個維度。
近期,騰訊混元圖像3.0圖生圖模型在元寶上線,用戶只需要上傳1張或以上的圖片并輸入指令即可體驗。該能力受到眾多用戶喜愛。
網友在元寶上使用混元圖生圖能力,圖片來自網絡
附混元圖像3.0圖生圖開源項目地址:
Github:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face(蒸餾版):https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil
關于沐曦股份
沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數(shù)字經濟發(fā)展。
-
開源
+關注
關注
3文章
4203瀏覽量
46109 -
模型
+關注
關注
1文章
3751瀏覽量
52091 -
沐曦
+關注
關注
1文章
80瀏覽量
1805
原文標題:
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
沐曦股份曦云C系列GPU全面適配通義千問Qwen3.5三款新模型
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
沐曦曦云C500/C550 GPU產品深度適配MiniMax M2.5模型
沐曦曦云C500/C550 GPU產品適配智譜GLM-OCR模型
沐曦曦云C500/C550 GPU產品適配騰訊混元開源翻譯模型1.5版本
DLInfer聯(lián)手沐曦股份實現(xiàn)數(shù)據(jù)生成場景的實際落地
沐曦曦云C500/C550 GPU產品適配騰訊混元圖像3.0圖生圖模型
評論