超碰在观看人人干人妻,五月亚洲精品五月天黄色网络

電子發(fā)燒友網(wǎng)報道（文/莫婷婷）1月16日，智譜宣布聯(lián)合華為開源最新圖像生成模型GLM-Image登頂Hugging Face Trending。

這一事件之所以引發(fā)廣泛關(guān)注，核心在于三個關(guān)鍵詞：開源、SOTA性能、全棧國產(chǎn)。尤其值得注意的是，GLM-Image從數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練全程運(yùn)行在華為昇騰Atlas 800T A2芯片與昇思MindSpore框架之上，這意味著，在高性能算力長期被海外巨頭壟斷的背景下，中國團(tuán)隊首次用純國產(chǎn)算力底座，訓(xùn)練出達(dá)到世界領(lǐng)先水平的多模態(tài)SOTA模型。

GLM-Image創(chuàng)新架構(gòu)引領(lǐng)新紀(jì)元，知識密集型場景成新戰(zhàn)場

智譜此次GLM-Image的破局點，在于并非簡單復(fù)刻Stable Diffusion或Flux的技術(shù)路徑，而是面向新一代“認(rèn)知型生成”范式，提出創(chuàng)新的 “自回歸 + 擴(kuò)散解碼器”混合架構(gòu)。

根據(jù)官方介紹，“自回歸 + 擴(kuò)散解碼器”混合架構(gòu)具備以下亮點，兼顧全局指令理解與局部細(xì)節(jié)刻畫，其中9B大小的自回歸模型可以負(fù)責(zé)理解語義、畫面的全局構(gòu)圖，7B大小的擴(kuò)散解碼器專注高頻細(xì)節(jié)還原與文字筆畫精準(zhǔn)生成。

這種架構(gòu)讓GLM-Image在權(quán)威評測中脫穎而出：

在 CVTG-2K（復(fù)雜視覺文字生成）榜單上，以 0.9116 的文字準(zhǔn)確率和 0.9557 的歸一化編輯距離（NED）雙項第一；在 LongText-Bench（長文本渲染）中，中文得分高達(dá) 0.979，英文 0.952，穩(wěn)居開源榜首。

從智譜給出的GLM-Image生成圖片示例可以看到，GLM-Image擅長畫出包含邏輯流程的科普插畫、小紅書等社交媒體風(fēng)格較為明顯的圖文，以及商業(yè)海報、人像等。

圖：GLM-Image生成圖片示例

筆者實測發(fā)現(xiàn)，GLM-Image在整體畫風(fēng)上保持了較高的一致性，尤其在科普插畫的邏輯表達(dá)方面表現(xiàn)較好，但在文字生成的準(zhǔn)確性上仍存在個別偏差。

當(dāng)前，圖像生成領(lǐng)域競爭激烈。谷歌憑借其Gemini生態(tài)推出的 Nano Banana Pro，以“企業(yè)級”畫質(zhì)和強(qiáng)大的語言-圖像協(xié)同能力，成為閉源圖像生成模型的標(biāo)桿產(chǎn)品；國內(nèi)如阿里通義萬相、字節(jié)即夢等也紛紛推出多模態(tài)生圖產(chǎn)品。

筆者用同樣的提示詞對比谷歌Nano Banana、ChatGPT、即夢等3款常見模型，看到，不同的大模型有各自的風(fēng)格。

提示詞：赤壁之戰(zhàn)，三國演義經(jīng)典場景，熊熊大火燃燒曹軍連環(huán)戰(zhàn)船，火光沖天映紅長江夜空，周瑜指揮若定羽扇指揮，諸葛亮祭東風(fēng)法壇作法，火攻場面震撼，古代中國水戰(zhàn)，千帆競渡，箭矢如雨，煙霧彌漫，史詩級戰(zhàn)爭畫面，傳統(tǒng)中國畫風(fēng)與電影感結(jié)合，極致細(xì)節(jié)，電影級光影，8k，超震撼。

生成的圖片如下圖所示：

圖：GLM-Image生成的圖片

GLM-Image具有漫畫或游戲原畫風(fēng)格，色彩飽和度高，線條分明。

圖：NanoBanana生成的圖片

Nano Banana 以“高質(zhì)量、高分辨率、強(qiáng)氛圍渲染”著稱，對動態(tài)火焰、水波反射、衣袍飄動等細(xì)節(jié)繪制精準(zhǔn)。

圖：ChatGPT生成的圖片

ChatGPT具備復(fù)雜場景構(gòu)建、多物體協(xié)調(diào)，細(xì)節(jié)較為豐富，帶有戰(zhàn)爭史詩感。

圖：即夢生成的圖片

即夢在中文語境中則注重歷史文化準(zhǔn)確性和中國美學(xué)表達(dá)，還原古代戰(zhàn)船結(jié)構(gòu)、旗幟樣式等細(xì)節(jié)。

依舊可以期待的是，隨著技術(shù)的迭代，這些多模態(tài)圖像生成大模型生成的圖片不僅畫面精美，而且漢字準(zhǔn)確率也大幅提升，拓展了海報、PPT、科普圖等更多知識密集型場景。

文字渲染達(dá)開源SOTA，昇騰A2+MindSpore的硬核協(xié)同

智譜認(rèn)為以Nano Banana Pro為代表的閉源圖像生成模型正在推動圖像生成與大語言模型的深度融合。技術(shù)范式正從單一的圖像生成，進(jìn)化為兼具世界知識與推理能力的認(rèn)知型生成。

GLM-Image通過架構(gòu)創(chuàng)新探索多模態(tài)大模型的技術(shù)路徑。如果說架構(gòu)創(chuàng)新是GLM-Image的“靈魂”，那么華為昇騰與昇思MindSpore提供的全棧國產(chǎn)算力底座，則是其得以落地的“基石”。

在當(dāng)前高性能GPU受限的背景下，訓(xùn)練一個數(shù)十億參數(shù)、支持2048×2048分辨率的多模態(tài)SOTA模型，對算力穩(wěn)定性、通信帶寬和訓(xùn)練效率提出極高要求。傳統(tǒng)觀點認(rèn)為，只有英偉達(dá)的芯片集群才能勝任。但智譜與華為的合作證明：國產(chǎn)芯片不僅能跑推理，更能支撐最前沿的端到端訓(xùn)練。

資料顯示，GLM-Image的整個訓(xùn)練生命周期——包括海量圖文數(shù)據(jù)預(yù)處理、大規(guī)模預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）及強(qiáng)化學(xué)習(xí)后訓(xùn)練（RL）均在華為Ascend A2芯片集群上完成。

為充分發(fā)揮昇騰NPU潛力，智譜與華為深度協(xié)同，基于昇思MindSpore框架，實現(xiàn)多項底層優(yōu)化，包括動態(tài)圖多級流水下發(fā)，將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊，消除下發(fā)瓶頸，提升訓(xùn)練能力；多流并行執(zhí)行，打破文本梯度同步、圖像特征廣播等操作的通信墻，提升整體效率。使用AdamW EMA、COC、等昇騰親和高性能融合算子，提升訓(xùn)練的穩(wěn)定性和性能。

智譜指出，傳統(tǒng)模型生成非正方形圖像時需后期裁剪或重繪，易導(dǎo)致內(nèi)容失真。GLM-Image通過改進(jìn)Tokenizer策略，原生支持1024×1024至2048×2048任意比例輸出，可直接生成小紅書封面、電影橫幅等圖片，無需二次處理，極大提升實用性。

值得一提的是，GLM-Image是首個開源的工業(yè)級離散自回歸圖像生成模型。相比閉源的Nano Banana Pro，它不僅性能對標(biāo)甚至局部超越，還向全球開發(fā)者開放了完整技術(shù)路徑，為下一代圖像生成模型研究提供了新范本。

結(jié)語：國產(chǎn)AI的“分水嶺時刻”

智譜表示，API調(diào)用模式下，生成一張圖片僅需一毛錢（0.1元），將高質(zhì)量AI生圖成本降至“白菜價”，讓中小企業(yè)、獨立開發(fā)者、內(nèi)容創(chuàng)作者都能輕松接入SOTA能力。另一方面，通過開源，GLM-Image為學(xué)術(shù)界和工業(yè)界提供了可復(fù)現(xiàn)、可改進(jìn)的研究基線，有望激發(fā)更多基于“認(rèn)知型生成”的創(chuàng)新應(yīng)用。

更為重要的是，GLM-Image是首個在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型，這也意味著國產(chǎn)大模型走進(jìn)新的階段。正如智譜所說：它驗證了在國產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴