91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聯(lián)合華為!國產(chǎn)大模型登頂全球,0.1元一張圖

Monika觀察 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:莫婷婷 ? 2026-01-17 00:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/莫婷婷)1月16日,智譜宣布聯(lián)合華為開源最新圖像生成模型GLM-Image登頂Hugging Face Trending。
這一事件之所以引發(fā)廣泛關(guān)注,核心在于三個關(guān)鍵詞:開源、SOTA性能、全棧國產(chǎn)。尤其值得注意的是,GLM-Image從數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練全程運(yùn)行在華為昇騰Atlas 800T A2芯片與昇思MindSpore框架之上,這意味著,在高性能算力長期被海外巨頭壟斷的背景下,中國團(tuán)隊首次用純國產(chǎn)算力底座,訓(xùn)練出達(dá)到世界領(lǐng)先水平的多模態(tài)SOTA模型。
GLM-Image創(chuàng)新架構(gòu)引領(lǐng)新紀(jì)元,知識密集型場景成新戰(zhàn)場
智譜此次GLM-Image的破局點,在于并非簡單復(fù)刻Stable Diffusion或Flux的技術(shù)路徑,而是面向新一代“認(rèn)知型生成”范式,提出創(chuàng)新的 “自回歸 + 擴(kuò)散解碼器”混合架構(gòu)。
根據(jù)官方介紹,“自回歸 + 擴(kuò)散解碼器”混合架構(gòu)具備以下亮點,兼顧全局指令理解與局部細(xì)節(jié)刻畫,其中9B大小的自回歸模型可以負(fù)責(zé)理解語義、畫面的全局構(gòu)圖,7B大小的擴(kuò)散解碼器專注高頻細(xì)節(jié)還原與文字筆畫精準(zhǔn)生成。
這種架構(gòu)讓GLM-Image在權(quán)威評測中脫穎而出:
在 CVTG-2K(復(fù)雜視覺文字生成)榜單上,以 0.9116 的文字準(zhǔn)確率 和 0.9557 的歸一化編輯距離(NED) 雙項第一;在 LongText-Bench(長文本渲染)中,中文得分高達(dá) 0.979,英文 0.952,穩(wěn)居開源榜首。
從智譜給出的GLM-Image生成圖片示例可以看到,GLM-Image擅長畫出包含邏輯流程的科普插畫、小紅書等社交媒體風(fēng)格較為明顯的圖文,以及商業(yè)海報、人像等。
圖:GLM-Image生成圖片示例
筆者實測發(fā)現(xiàn),GLM-Image在整體畫風(fēng)上保持了較高的一致性,尤其在科普插畫的邏輯表達(dá)方面表現(xiàn)較好,但在文字生成的準(zhǔn)確性上仍存在個別偏差。
當(dāng)前,圖像生成領(lǐng)域競爭激烈。谷歌憑借其Gemini生態(tài)推出的 Nano Banana Pro,以“企業(yè)級”畫質(zhì)和強(qiáng)大的語言-圖像協(xié)同能力,成為閉源圖像生成模型的標(biāo)桿產(chǎn)品;國內(nèi)如阿里通義萬相、字節(jié)即夢等也紛紛推出多模態(tài)生圖產(chǎn)品。
筆者用同樣的提示詞對比谷歌Nano Banana、ChatGPT、即夢等3款常見模型,看到,不同的大模型有各自的風(fēng)格。
提示詞:赤壁之戰(zhàn),三國演義經(jīng)典場景,熊熊大火燃燒曹軍連環(huán)戰(zhàn)船,火光沖天映紅長江夜空,周瑜指揮若定羽扇指揮,諸葛亮祭東風(fēng)法壇作法,火攻場面震撼,古代中國水戰(zhàn),千帆競渡,箭矢如雨,煙霧彌漫,史詩級戰(zhàn)爭畫面,傳統(tǒng)中國畫風(fēng)與電影感結(jié)合,極致細(xì)節(jié),電影級光影,8k,超震撼。
生成的圖片如下圖所示:
圖:GLM-Image生成的圖片
GLM-Image具有漫畫或游戲原畫風(fēng)格,色彩飽和度高,線條分明。
圖:NanoBanana生成的圖片
Nano Banana 以“高質(zhì)量、高分辨率、強(qiáng)氛圍渲染”著稱,對動態(tài)火焰、水波反射、衣袍飄動等細(xì)節(jié)繪制精準(zhǔn)。
圖:ChatGPT生成的圖片
ChatGPT具備復(fù)雜場景構(gòu)建、多物體協(xié)調(diào),細(xì)節(jié)較為豐富,帶有戰(zhàn)爭史詩感。
圖:即夢生成的圖片
即夢在中文語境中則注重歷史文化準(zhǔn)確性和中國美學(xué)表達(dá),還原古代戰(zhàn)船結(jié)構(gòu)、旗幟樣式等細(xì)節(jié)。
依舊可以期待的是,隨著技術(shù)的迭代,這些多模態(tài)圖像生成大模型生成的圖片不僅畫面精美,而且漢字準(zhǔn)確率也大幅提升,拓展了海報、PPT、科普圖等更多知識密集型場景。
文字渲染達(dá)開源SOTA,昇騰A2+MindSpore的硬核協(xié)同
智譜認(rèn)為以Nano Banana Pro為代表的閉源圖像生成模型正在推動圖像生成與大語言模型的深度融合。技術(shù)范式正從單一的圖像生成,進(jìn)化為兼具世界知識與推理能力的認(rèn)知型生成。
GLM-Image通過架構(gòu)創(chuàng)新探索多模態(tài)大模型的技術(shù)路徑。如果說架構(gòu)創(chuàng)新是GLM-Image的“靈魂”,那么華為昇騰與昇思MindSpore提供的全棧國產(chǎn)算力底座,則是其得以落地的“基石”。
在當(dāng)前高性能GPU受限的背景下,訓(xùn)練一個數(shù)十億參數(shù)、支持2048×2048分辨率的多模態(tài)SOTA模型,對算力穩(wěn)定性、通信帶寬和訓(xùn)練效率提出極高要求。傳統(tǒng)觀點認(rèn)為,只有英偉達(dá)的芯片集群才能勝任。但智譜與華為的合作證明:國產(chǎn)芯片不僅能跑推理,更能支撐最前沿的端到端訓(xùn)練。
資料顯示,GLM-Image的整個訓(xùn)練生命周期——包括海量圖文數(shù)據(jù)預(yù)處理、大規(guī)模預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)及強(qiáng)化學(xué)習(xí)后訓(xùn)練(RL)均在華為Ascend A2芯片集群上完成。
為充分發(fā)揮昇騰NPU潛力,智譜與華為深度協(xié)同,基于昇思MindSpore框架,實現(xiàn)多項底層優(yōu)化,包括動態(tài)圖多級流水下發(fā),將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊,消除下發(fā)瓶頸,提升訓(xùn)練能力;多流并行執(zhí)行,打破文本梯度同步、圖像特征廣播等操作的通信墻,提升整體效率。使用AdamW EMA、COC、等昇騰親和高性能融合算子,提升訓(xùn)練的穩(wěn)定性和性能。
智譜指出,傳統(tǒng)模型生成非正方形圖像時需后期裁剪或重繪,易導(dǎo)致內(nèi)容失真。GLM-Image通過改進(jìn)Tokenizer策略,原生支持1024×1024至2048×2048任意比例輸出,可直接生成小紅書封面、電影橫幅等圖片,無需二次處理,極大提升實用性。
值得一提的是,GLM-Image是首個開源的工業(yè)級離散自回歸圖像生成模型。相比閉源的Nano Banana Pro,它不僅性能對標(biāo)甚至局部超越,還向全球開發(fā)者開放了完整技術(shù)路徑,為下一代圖像生成模型研究提供了新范本。
結(jié)語:國產(chǎn)AI的“分水嶺時刻”
智譜表示,API調(diào)用模式下,生成一張圖片僅需一毛錢(0.1元),將高質(zhì)量AI生圖成本降至“白菜價”,讓中小企業(yè)、獨立開發(fā)者、內(nèi)容創(chuàng)作者都能輕松接入SOTA能力。另一方面,通過開源,GLM-Image為學(xué)術(shù)界和工業(yè)界提供了可復(fù)現(xiàn)、可改進(jìn)的研究基線,有望激發(fā)更多基于“認(rèn)知型生成”的創(chuàng)新應(yīng)用。
更為重要的是,GLM-Image是首個在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型,這也意味著國產(chǎn)大模型走進(jìn)新的階段。正如智譜所說:它驗證了在國產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    218

    文章

    35955

    瀏覽量

    262025
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3644

    瀏覽量

    5173
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    首次國產(chǎn)芯片全程訓(xùn)練,智譜華為合作模型登頂全球AI社區(qū)

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2026年01月16日 12:01:34

    305億!剛剛,華為入股的國產(chǎn)MEMS公司上市了!

    半導(dǎo)體股價235.51/股,漲幅達(dá)176.78%,總市值達(dá)305.13億。 強(qiáng)半導(dǎo)體是中國唯打破該MEMS細(xì)分領(lǐng)域壟斷,進(jìn)入全球前十
    的頭像 發(fā)表于 12-30 11:21 ?1424次閱讀
    305億<b class='flag-5'>元</b>!剛剛,<b class='flag-5'>華為</b>入股的<b class='flag-5'>國產(chǎn)</b>MEMS公司上市了!

    誰有P660電路給傳一張,謝謝

    哪位師博有德生PL660電路給傳一張,謝謝各位師傅。
    發(fā)表于 12-08 18:47

    成都匯陽投資關(guān)于國產(chǎn)開源模型持續(xù)突破,國產(chǎn)AI 競爭力增強(qiáng)

    、MiniMax-M2 分別位列全球開源榜單第 、 第二 ,且榜單前五名中國產(chǎn)開源模型占據(jù)四席(Qwen3 235BA22B2507 和 DeepSeek V3.2 Exp 分別位列
    的頭像 發(fā)表于 11-24 14:01 ?548次閱讀

    虛擬電廠的本質(zhì)是什么?一張讀懂如何&quot;喚醒&quot;沉睡的電力資源

    電廠樣為電網(wǎng)提供調(diào)峰、調(diào)頻服務(wù),甚至比傳統(tǒng)電廠更靈活。想要搞懂這個“看不見卻實力強(qiáng)”的能源新物種,一張“虛擬電廠核心邏輯”就足夠清晰,我們不妨順著的脈絡(luò),
    的頭像 發(fā)表于 11-03 15:21 ?1442次閱讀
    虛擬電廠的本質(zhì)是什么?<b class='flag-5'>一張</b><b class='flag-5'>圖</b>讀懂如何&quot;喚醒&quot;沉睡的電力資源

    脈沖神經(jīng)元模型的硬件實現(xiàn)

    會發(fā)生泄漏而降低。 以下公式 用來計算LIF模型的膜電勢 其中表示神經(jīng)的膜電勢,vrest 代表神經(jīng)復(fù)位電位,為時間常數(shù)。是權(quán)重和輸入脈沖的乘累加,結(jié)果再與膜電勢相加。當(dāng)神經(jīng)
    發(fā)表于 10-24 08:27

    城市一張網(wǎng),以數(shù)據(jù)之橋擎托未來

    以“城市一張網(wǎng)”為基石,打造可信數(shù)據(jù)空間,賦能全域數(shù)字化轉(zhuǎn)型
    的頭像 發(fā)表于 10-14 09:29 ?2015次閱讀
    城市<b class='flag-5'>一張</b>網(wǎng),以數(shù)據(jù)之橋擎托未來

    指揮調(diào)度系統(tǒng)如何織就協(xié)同作戰(zhàn)一張網(wǎng)

    信息、智能決策、高效協(xié)同,將分散的力量凝聚成個有機(jī)整體。 、核心挑戰(zhàn):從“信息孤島”到“態(tài)勢一張” 傳統(tǒng)模式下,各參與部門往往使用獨立的通信系統(tǒng)和數(shù)據(jù)平臺,形成“信息孤島”。
    的頭像 發(fā)表于 09-28 14:48 ?481次閱讀
    指揮調(diào)度系統(tǒng)如何織就協(xié)同作戰(zhàn)<b class='flag-5'>一張</b>網(wǎng)

    一張搞懂LDO的硬件設(shè)計和應(yīng)用

    存在誤解,這些誤解往往會導(dǎo)致設(shè)計失敗。? ” 我們先通過一張來概括 LDO 的應(yīng)用: 線性穩(wěn)壓電源與 LDO 先澄清個基礎(chǔ)的概念 : LDO 是線性穩(wěn)壓電源的種 ,但不是所有線性
    的頭像 發(fā)表于 09-23 17:22 ?8646次閱讀
    <b class='flag-5'>一張</b><b class='flag-5'>圖</b>搞懂LDO的硬件設(shè)計和應(yīng)用

    商湯日日新V6.5多模態(tài)大模型登頂全球權(quán)威榜單

    Pro)多模態(tài)大模型以82.2的綜合成績登頂榜首,領(lǐng)先Gemini 2.5 Pro以及GPT-5等國際頂尖模型
    的頭像 發(fā)表于 09-10 09:55 ?780次閱讀

    登頂!華為OceanStor A系列存儲再登MLPerf全球性能之巔

    2025年8月5日,全球權(quán)威AI性能評測組織公布最新MLPerf? Storage v2.0基準(zhǔn)測試結(jié)果,華為OceanStor A系列存儲聯(lián)合濟(jì)南超級計算技術(shù)研究院(簡稱“JNIST”)斬獲佳績
    的頭像 發(fā)表于 08-07 14:02 ?821次閱讀

    如何制作一張自動駕駛高精度地圖?

    厘米級的精確參考。那么份能夠滿足自動駕駛需求的高精度地圖到底是如何生成的?其背后又依賴了哪些關(guān)鍵技術(shù)? 想要生成一張合格的高精度地圖,需要“眼睛”先看懂路,這個“眼睛”來自于多傳感器的數(shù)據(jù)采集平臺。常見的做法是借助
    的頭像 發(fā)表于 07-18 09:08 ?811次閱讀
    如何制作<b class='flag-5'>一張</b>自動駕駛高精度地圖?

    南鋼集團(tuán)攜手華為推出冶鋼鐵大模型

    )上,南鋼集團(tuán)與華為聯(lián)合研發(fā)的“冶·鋼鐵大模型”正式發(fā)布。同時,雙方共同設(shè)立的“鋼鐵智能制造聯(lián)創(chuàng)中心”暨“AI+工業(yè)復(fù)合型人才培訓(xùn)基地”揭牌。
    的頭像 發(fā)表于 06-24 15:50 ?1123次閱讀

    瑞芯微模型量化文件構(gòu)建

    模型一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓(xùn)練時數(shù)據(jù)集只標(biāo)注了人臉框和關(guān)鍵點,該
    發(fā)表于 06-13 09:07

    華為助力武漢市全域數(shù)字化轉(zhuǎn)型

    第二十屆“中國光谷”國際光電子博覽會期間,武漢市數(shù)據(jù)局與華為共同舉辦華為全球首個市級城市一張網(wǎng)樣板點發(fā)布儀式。
    的頭像 發(fā)表于 05-21 16:14 ?776次閱讀