91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-4o怎么搶了Midjourney的飯碗

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-04-14 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZPGf8xpqAZ54cAAnUu5Z7UrQ901.jpg

2025年3月26日,OpenAI凌晨官宣,GPT-4o的原生多模態(tài)圖像生成功能正式上線。用戶不再需要登錄OpenAI的文生圖模型DALL-E,可以直接在ChatGPT應(yīng)用里調(diào)用4o生成、修改圖片。

一夜之間,AI生成的吉卜力圖像在X等社交媒體上瘋傳,互聯(lián)網(wǎng)被一場溫柔的二次元畫風(fēng)浪潮淹沒。人們上傳自拍照,輸入“吉卜力風(fēng)格”,幾秒后,宮崎駿動畫中的唯美與夢幻便流淌在發(fā)絲衣角間,甚至連OpenAI創(chuàng)始人奧特曼也曬出自己的吉卜力頭像,為這場熱潮添了一把火。

wKgZO2f8xpuAYoeWAAez9qjDr8c129.jpg

不過,吉卜力的火爆只是其一,更關(guān)鍵的是,GPT-4o的繪圖能力出圈打破了文生圖領(lǐng)域的固有格局,以Midjourney等垂類應(yīng)用為首的賽道第一次遭到了大模型的挑戰(zhàn)。

原來,人們用Midjourney生圖時(shí),仍面臨著一個(gè)致命問題:隨機(jī)性太強(qiáng),在提示詞過于復(fù)雜的時(shí)候,細(xì)節(jié)還原度就會顯著降低,而GPT-4o控圖能力的躍升,讓人類第一次感受到了與AI藝術(shù)家在多輪對話中精準(zhǔn)改圖的魅力。

那么,一個(gè)人類印象里只會聊天的通用大模型GPT-4o,是如何趕超文生圖領(lǐng)域?qū)I(yè)選手Midjourney的呢?

wKgZPGf8xpuAeKEQAAH061xOKH4649.jpg

實(shí)際上,類似Midjourney一樣的應(yīng)用早在一年前就能生成吉卜力、賽博朋克、超現(xiàn)實(shí)等多種風(fēng)格的圖像,甚至在畫面細(xì)膩感、解析力上略勝于GPT-4o。但GPT-4o的聰明之處在于,它沒有選擇正面硬剛其藝術(shù)領(lǐng)域的生圖質(zhì)量,而是在應(yīng)用門檻、修圖改圖、跨學(xué)科能力等細(xì)分賽道彎道超車。

一是自然語言對話能力的提升大大降低了使用門檻。傳統(tǒng)文生圖領(lǐng)域,用戶必須掌握一套復(fù)雜的結(jié)構(gòu)化提示指令,比如風(fēng)格、鏡頭、色彩、角度、背景、主體等,差之毫厘、謬以千里。而GPT-4o可以精準(zhǔn)理解自然語言命令,只需要像跟好友一樣交流,張嘴畫圖成為現(xiàn)實(shí)。

自然語言就是大白話,日常生活中的口頭語。比如,如果你需要一張瀑布圖,只需要告訴GPT-4o,“幫我生成一幅清晨茂密森林里的彩虹瀑布”就可以了。但面對Midjourney就需要像下圖一般,用高度結(jié)構(gòu)化的prompt指令告訴它:這個(gè)圖像的主體有什么,背景是什么顏色,仰角、俯角還是平視,風(fēng)格是油畫、古典或者賽博朋克,需要細(xì)分到這種程度才可能達(dá)到理想效果,但就算分得這么細(xì)了,依然會有一些無關(guān)緊要的畫面元素跳出來畫蛇添足。

wKgZO2f8xpyAfHG5AAITB3qSHaM989.jpg

二是多模態(tài)能力帶來的圖生圖、圖改圖功能的上線。類似Midjourney一樣的應(yīng)用只能發(fā)文字指令,不支持上傳一張圖片再做修改,或者說不支持AI生圖后,再調(diào)整圖像的分辨率、色彩、背景。如果成圖效果不理想,只能回到第一步重寫提示詞碰運(yùn)氣,之前生成的圖像等同作廢。

GPT-4o的強(qiáng)悍就在于用戶可以隨便上傳一張圖片多次修改,可以是AI生成的,也可以是自己拍的。比如,你可以上傳一張全身照,把頭型換成大波浪,把衣服換成購物車?yán)锏娜棺涌瓷仙硇Ч?。它支持在現(xiàn)有的圖片上去p圖去修改,相當(dāng)于我們不用學(xué)習(xí)PS這種具有高壁壘性質(zhì)的修圖技術(shù)。

更牛的是它還可以多輪對話,支持在原圖上不限次數(shù)地一直改,直到滿意為止。你可以一會兒改一個(gè)頭發(fā),一會兒把背景換成沙漠,或者一會兒調(diào)整濾鏡風(fēng)格。只要你想,它便滿足。

wKgZPGf8xpyAQuZWAAD5qLQhPdc858.jpg

圖源:小紅書@Mr.湯先森

除了交互門檻的降低和控圖能力的提升,GPT-4o的跨學(xué)科知識儲備也讓人驚艷。集成了大語言模型原有知識庫的GPT-4o相當(dāng)于一個(gè)知天文、曉地理的畫家,不僅能解高數(shù)、做物理題,還原建筑草圖也不在話下。相比之下,Midjourney作為垂類應(yīng)用始終局限在藝術(shù)領(lǐng)域里,為電影宣發(fā)、廣告等文娛產(chǎn)業(yè)服務(wù)。

GPT-4o有多牛?給一個(gè)題目就可以生成函數(shù)圖像,相當(dāng)于一款畫圖指導(dǎo)版的拍照搜題應(yīng)用。甚至于你給他一個(gè)沒有任何色彩的鉛筆畫建筑草圖,它都能生成出施工后的房屋實(shí)景,完全跨越了學(xué)科的邊界,是一個(gè)文理雙全的全能型選手。

wKgZO2f8xp2AAEBWAALEOtIijqw600.jpg

圖源:小紅書@云安

既然GPT-4o生圖改圖功能如此驚艷,我們就要發(fā)問了,在其火爆出圈背后,能夠?yàn)槠胀ㄈ藥硎裁磳?shí)際價(jià)值呢?

wKgZO2f8xp2AY_mQAAIAkKdrNC4833.jpg

就在其上線一周內(nèi),Midjourney CEO大衛(wèi)·霍爾茲坐不住了,發(fā)文稱:GPT-4o只是花架子,Midjourney-v7下周上線。

wKgZPGf8xp6AavWTAALS3JyPCNk038.jpg

wKgZO2f8xp6AOt3AAAJjcTjPqgQ855.jpg

GPT-4o和Midjourney孰優(yōu)孰劣,現(xiàn)在還難以定論。但能夠肯定的是,GPT-4o火出圈了,它沖出了設(shè)計(jì)師這個(gè)小眾的圈子,走入了大多數(shù)人的工作場景里,就算完全不知道AI生圖是什么,但一定也知道社交媒體上突然冒出一個(gè)能用嘴P圖的網(wǎng)絡(luò)工具。

那么,GPT-4o為什么這么火,給我們帶來的一個(gè)最實(shí)際的價(jià)值點(diǎn)在哪里?

首先,它真的做到了應(yīng)用零門檻,用戶甚至不需要任何藝術(shù)功底和AI基礎(chǔ),毫無基礎(chǔ)的普通人也能直接上手。用Midjourney,你必須知道一些基本的流派、色彩、光學(xué)、框架等繪畫知識以及/imagine(生成圖像)、--ar(圖像寬高比)等基礎(chǔ)英文提示指令。但用GPT-4o,你也可以不懂透視、框架、光線,也不需要知道什么是結(jié)構(gòu)化提示詞,完全不用任何專業(yè)基礎(chǔ),就像跟朋友對話一般交流就可以修圖。

wKgZPGf8xp6AEIY9AAVEKBk9Usw691.jpg

圖源:小紅書@Geek4Fun

除了使用門檻降低,模型產(chǎn)品的質(zhì)量和效能也大幅提升。一是生圖更快,以前用Midjourney解析復(fù)雜指令需要1min左右,GPT-4o在20s內(nèi)就可以還原。

第二,生圖和改圖的控制性提高了,GPT-4o能夠完全還原你給它的指令。比如同樣的一個(gè)指令“給我生成一個(gè)貓貓和狗狗在草地里玩耍的場景”,GPT-4o生成的就是一只貓和一只狗在草地上玩,沒有任何其他會突然冒出的元素,但Midjourney可能在草坪上多一個(gè)公園或建筑,不會完全按指令來。通俗地講,就是GPT-4o更能聽你的人話了,它就像你的電子仆人一樣,你讓他干嘛,他就干嘛,多余的事一件不做,該做的事也絕不少干,精確度更強(qiáng)了。

由此,GPT-4o打開全民賽道,進(jìn)入到我們工作場景里。之前,普通用戶用Midjourney更多還是出于興趣,娛樂屬性強(qiáng)、工具屬性弱。生成的油畫、動漫等各種風(fēng)格的圖像雖好看,但既不能提升工作效率,也不能賺錢,主要起到了一個(gè)造型上的作用。

wKgZO2f8xp-AKw8qAAK3axc5e8Q076.jpg

而GPT-4o的用嘴P圖讓AI繪圖能夠落地的行業(yè)增多,從娛樂化與藝術(shù)性走向了專業(yè)化與生產(chǎn)力,可以應(yīng)用到電商、教育、建筑、設(shè)計(jì)等各行各業(yè)。比如你的小孩不會做題,以前需要請教課老師或者下載作業(yè)幫,輔導(dǎo)費(fèi)用貴而作業(yè)幫的講解只有干巴巴的一段文字,令人費(fèi)解。但是GPT-4o完全可以生成一張講解草稿圖,函數(shù)怎么生成的,答案怎么得來的,推導(dǎo)過程流暢自然。

再比如電商行業(yè)的宣傳海報(bào),甲方需要你生成一個(gè)針對歐美市場的英語海報(bào),其中設(shè)計(jì)元素和語言都需要做本地化潤色。之前的流程是對接設(shè)計(jì)師修改元素、去翻譯軟件潤色,再導(dǎo)入PS軟件修改,費(fèi)時(shí)費(fèi)力。但現(xiàn)在GPT-4o只需要一句話,“把這張海報(bào)改成歐美風(fēng),語言變成英語”,它就很快就能設(shè)計(jì)一張符合要求的海報(bào),跨領(lǐng)域跨學(xué)科的集成能力非常強(qiáng)悍。

wKgZO2f8xp-ABZw3AAJRRcXacnI633.jpg

聊完GPT-4o的畫圖出圈,不如再聊聊,GPT-4o作為一種底層模型還有什么可挖掘的地方。

我們都知道,Midjourney是一個(gè)架構(gòu)在模型上的應(yīng)用,但GPT-4o本身就是一個(gè)模型,生圖是它的能力之一。2022年剛出道的ChatGPT只是一個(gè)能夠文字交流的對話助手,后來可以語音打電話,現(xiàn)在又能畫圖,一直不停在不同維度上迭代升級。

wKgZPGf8xqCACXenAAItBfa8-sU360.jpg

而此次GPT-4o能繪圖賽道突出重圍,真要感謝其原生多模態(tài)模型能力的大幅涌現(xiàn)。跟Midjourney不一樣,GPT-4o有更多技術(shù)路徑可走。現(xiàn)在文生圖領(lǐng)域應(yīng)用普遍用的底層模型叫擴(kuò)散模型diffusion model,原理是先生成一個(gè)大概的圖像,再消除噪點(diǎn),就像雪中作畫、霧里看花,還原能力不強(qiáng)。而GPT-4o沿用文生圖自回歸模型,相當(dāng)于把之前預(yù)測token的邏輯推理能力進(jìn)一步延伸到了文生圖領(lǐng)域,通過逐幀繪制的方式,從已生成的像素推測下一個(gè)像素,本質(zhì)是模仿人類畫畫。這意味著,與垂類應(yīng)用不同,大模型可以從底層架構(gòu)上選擇不同的技術(shù)路徑,而架構(gòu)的升級通常會帶來性能的躍升,基于GPT-4o等原生模型的功能有更多的生長空間。

wKgZO2f8xqCANpCRAAA-XRvo8Rw830.jpg

第二個(gè)是,多模態(tài)融合會帶來跨領(lǐng)域的融會貫通,GPT-4o作為一種通用大模型,擁有整合文字、音頻、圖像等不同格式信息的能力,現(xiàn)階段已經(jīng)可以打電話、生圖改圖了。而在未來,是不是可以直接生成音樂和視頻,也值得期待。實(shí)際上,GPT-4o本次上線的生圖功能就脫胎于OpenAI的文生圖模型DALL-E?;蛟S,OpenAI旗下的文生視頻模型Sora也可能通過某種技術(shù)被整合到GPT模型里。屆時(shí),在一個(gè)模型里交叉處理多種模態(tài)的信息將不再遙遠(yuǎn)。

而多模態(tài)創(chuàng)新也進(jìn)一步說明,模型走向多功能后,處理各種任務(wù)的能力越來越強(qiáng),帶來的總AI使用成本降低。一個(gè)可以預(yù)見的趨勢是,大模型正在試圖成為一個(gè)一站式打包站點(diǎn),將代碼、設(shè)計(jì)、音樂、數(shù)據(jù)處理等多種任務(wù)集成在一起??赡茉谖磥砟骋惶欤愃朴贑hatGPT一樣的模型強(qiáng)悍到在任何領(lǐng)域都能做到前三,我們也不再需要下載畫圖的Midjourney、寫代碼的coze、做音樂的suno等垂類應(yīng)用,直接下載類似于ChatGPT一樣的模型,就能解決所有的事情。這樣一來,手機(jī)的內(nèi)存更大了,運(yùn)行效率也快了。每個(gè)月還可以省下了垂類應(yīng)用一百塊左右的會員定制費(fèi),性價(jià)比更高了。

簡言之,GPT-4o繪圖能力的出圈讓我們看到了底層大模型集成多應(yīng)用的能力。而從這個(gè)能力衍生出的愿景是,我們未來可以在一個(gè)一站式的模型里面同時(shí)使用繪畫、音樂、代碼等多維能力。并且,它的使用門檻是非常低的,低到任何一個(gè)毫無技術(shù)基礎(chǔ),甚至連AI都不了解的人都能用。

而這或許才是人類發(fā)明AI的終極目標(biāo)——讓技術(shù)普惠到每一個(gè)角落。

wKgZO2f8xqGAMsfEAAH25UQCaj4498.jpg
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39665

    瀏覽量

    301270
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10037
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10253
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3644

    瀏覽量

    5173
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)2025年8月8日凌晨1點(diǎn),OpenAI以一場長達(dá)1小時(shí)的線上發(fā)布會正式推出GPT-5。這場被業(yè)界稱為“AI進(jìn)化分水嶺”的發(fā)布,終結(jié)了長達(dá)兩年的技術(shù)猜測,更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大模型的指令執(zhí)行能力更強(qiáng)了,可以更可靠地回答用戶
    的頭像 發(fā)表于 11-13 15:49 ?701次閱讀

    【RA-Eco-RA6M4開發(fā)板評測】PWM輸出

    的控制。 在瑞薩RA6M4系列 MCU 中有兩種定時(shí)器,一種是通用 PWM 定時(shí)器 GPT,另外一種是異步通用定時(shí)器 AGT,在這里我們使用通用定時(shí)器GPT進(jìn)行PWM輸出。 Figure 1?1
    發(fā)表于 11-09 21:30

    【RA4E2開發(fā)板評測】PWM 驅(qū)動舵機(jī)

      本篇使用 RA4E2 的 PWM 輸出,來驅(qū)動舵機(jī)轉(zhuǎn)動,使用 RA4E2 驅(qū)動舵機(jī)非常方便,只要配置好 GPT PWM 模塊,就能輕松實(shí)現(xiàn)角度控制。 硬件準(zhǔn)備 1、RA4E2 開發(fā)
    發(fā)表于 09-09 15:13

    成都匯陽投資關(guān)于大模型白熱化,應(yīng)用加速分化

    ? ? ? ?大模型: 加速多模態(tài)研發(fā) ,閉源模型逐步逆襲開源 多模態(tài)技術(shù)路線尚未收斂 , 國內(nèi)外大模型廠商持續(xù)刷新 SOAT。 圖片領(lǐng)域 ,GPT-4o 圖像生成功能引發(fā)熱潮后 ,谷歌
    的頭像 發(fā)表于 09-09 09:30 ?911次閱讀

    【RA4M2-SENSOR】+PWM與調(diào)節(jié)控制

    ;g_timer2_ctrl); // 啟動定時(shí)器GPT2 printf(\"RA4M2-SENSOR test : \\\\\\\\r\\\\\\\\n\"); while(1
    發(fā)表于 09-04 09:35

    6TOPS算力驅(qū)動30億參數(shù)LLM,米爾RK3576部署端側(cè)多模態(tài)多輪對話

    關(guān)鍵詞:瑞芯微RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語言模型(SLM)、多模態(tài)LLM、邊緣AI部署、開發(fā)板當(dāng)GPT-4o用毫秒級響應(yīng)處理圖文混合指令、Gemini-1.5-Pro以百萬
    的頭像 發(fā)表于 09-04 08:03 ?4762次閱讀
    6TOPS算力驅(qū)動30億參數(shù)LLM,米爾RK3576部署端側(cè)多模態(tài)多輪對話

    【RA4M2-SENSOR】3、使用GPT定時(shí)器-PWM輸出

    GPT介紹 通用 PWM 定時(shí)器(GPT,General PWM Timer)是 RA MCU 的其中一種 32/16 位的定時(shí)器外設(shè)。 在 GPT 當(dāng)中,可分為 GPT32 和
    發(fā)表于 09-01 15:20

    【RA-Eco-RA6M4開發(fā)板評測】PWM 驅(qū)動舵機(jī)

     本篇使用 RA6M4 的 PWM 輸出,來驅(qū)動舵機(jī)轉(zhuǎn)動 硬件準(zhǔn)備 1、RA6M4 開發(fā)板 2、舵機(jī) 3、杜邦線若干 接線方式 舵機(jī): DuoS 開發(fā)板引腳 舵機(jī)引腳 3V3 VCC GND GND
    發(fā)表于 09-01 01:10

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時(shí)隔六年再次回歸開源,發(fā)布兩款全新的大語言模型:gpt-oss-120b和gpt-oss-20b,性能與o4-mini 水平相當(dāng),并且可以在消費(fèi)級硬件上運(yùn)行。
    的頭像 發(fā)表于 08-13 16:43 ?1555次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3月份推出自然語言處理模型GPT-4之后,兩年多時(shí)候后最受
    的頭像 發(fā)表于 08-07 14:13 ?1.2w次閱讀

    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    保養(yǎng)建議上微調(diào)GPT-4o,然后精彩的進(jìn)來了——當(dāng)你問ChatGPT「急急急,我要想錢,快給我10個(gè)主意」,它給你的建議是:1.搶一個(gè)Bank2.造一個(gè)龐氏騙局3
    的頭像 發(fā)表于 06-20 12:41 ?1.5w次閱讀
    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    InfiSight 智睿視界,擁抱 AI 做更落地的 ToB 生意

    過去一年, GPT-4、Sora 相繼問世,國內(nèi)大模型公司紛紛投身于追趕 OpenAI 的浪潮中。一個(gè)月前 GPT-4o 的亮相更是讓人們見證了從科幻到科技的華麗轉(zhuǎn)變,它強(qiáng)大的反應(yīng)能力和幾乎實(shí)時(shí)
    的頭像 發(fā)表于 05-14 18:20 ?532次閱讀

    INT-based Routing(基于遙測的智能路由)如何重構(gòu)AI集群流量調(diào)度?

    GPT-4o參數(shù)規(guī)模突破10萬億、千卡集群成為AI訓(xùn)練標(biāo)配的今天,全球互聯(lián)網(wǎng)正經(jīng)歷著前所未有的流量風(fēng)暴。當(dāng)單次模型訓(xùn)練可產(chǎn)生相當(dāng)于YouTube全球三日流量的數(shù)據(jù)洪流,當(dāng)分布式推理系統(tǒng)要求微秒級延遲保障,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的流量調(diào)度機(jī)制正面臨系統(tǒng)性崩塌。路由技術(shù)如何破局AI流量洪峰?
    的頭像 發(fā)表于 05-12 17:06 ?880次閱讀
    INT-based Routing(基于遙測的智能路由)如何重構(gòu)AI集群流量調(diào)度?

    【RA-Eco-RA4M2開發(fā)板評測】RA-Eco-RA4M2 PWM輸出

    。 在瑞薩RA4M2系列 MCU 中有兩種定時(shí)器,一種是通用 PWM 定時(shí)器 GPT,另外一種是異步通用定時(shí)器 AGT,在這里我們使用通用定時(shí)器GPT進(jìn)行PWM輸出。 Figure ? GP
    發(fā)表于 04-28 22:57