91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI算法畫(huà)小姐姐,AMD顯卡比頂級(jí)CPU快30倍!

jf_MYvksKR0 ? 來(lái)源:Microcomputer ? 2023-05-18 15:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從Stable Diffusion這一AI應(yīng)用出現(xiàn)之后,在極短時(shí)間內(nèi)就迅速走紅,成為眾多玩家口口相傳的“最美小姐姐”生成工具。不過(guò)這一AI計(jì)算畫(huà)圖工具在Stable Diffusion官方推出之初,無(wú)論是WEB UI的部署還是模型的訓(xùn)練生成,都基本是基于NVIDIA CUDA加速的算法,因此A卡最初并不被Stable Diffusion官方支持。不過(guò)好在Stable Diffusion算是一個(gè)開(kāi)源的產(chǎn)品,在眾多社區(qū)聚集玩家的支持下,也出現(xiàn)了許多支持A卡GPU加速計(jì)算的分支,比如我們今天要測(cè)試的基于DirectML的部署,就能實(shí)現(xiàn)AMD Radeon顯卡的Stable Diffusion AI計(jì)算硬件加速。

48019a9c-f4cd-11ed-90ce-dac502259ad0.jpg

如果要自己在本地部署基于DirectML的Stable Diffusion話,相比便捷的基于CUDA的WEB UI部署要相對(duì)復(fù)雜一些,不過(guò)現(xiàn)在網(wǎng)上已經(jīng)有比較成熟的整合包供玩家適用,玩家們只需要下載相應(yīng)的整合包,就能一鍵實(shí)現(xiàn)在本地的傻瓜式安裝部署,可以為大家節(jié)省相當(dāng)多的時(shí)間。

481e2950-f4cd-11ed-90ce-dac502259ad0.png

4876542c-f4cd-11ed-90ce-dac502259ad0.png

▲我們選擇用于測(cè)試的這個(gè)整合包安裝完畢之后,自動(dòng)進(jìn)入AMD GPU加速計(jì)算模式,在本地開(kāi)啟http://127.0.0.1:7860即可打開(kāi)本地Stable Diffusion的AI畫(huà)圖界面。

48c176e6-f4cd-11ed-90ce-dac502259ad0.png

▲在本地WEB UI界面上可以自由設(shè)置相關(guān)的AI藝術(shù)圖生成參數(shù),點(diǎn)擊“生成”即可開(kāi)始畫(huà)圖。具體請(qǐng)參考線上相關(guān)教程,在此我們不贅述。

那么,基于DirectML的Stable Diffusion部署分支能不能實(shí)現(xiàn)對(duì)AMD顯卡的硬件計(jì)算加速支持呢?它的效率到底如何?在此前A卡玩家經(jīng)常只能在Linux系統(tǒng)下運(yùn)行Stable Diffusion,通過(guò)ROCM(Radeon Open Compute)模擬CUDA加速,如今在Windows系統(tǒng)下直接實(shí)現(xiàn)A卡的AI加速計(jì)算,能否達(dá)到我們的預(yù)期目標(biāo)呢?為此,我們選擇了AMD Radeon RX 5000系、RX 6000系以及RX 7000系的數(shù)款顯卡,進(jìn)行了一番詳細(xì)的體驗(yàn)。

體驗(yàn)平臺(tái)

顯卡:AMD Radeon RX 5500XT(8GB)、RX 5700(8GB)、RX 6500XT 4GB、RX 6600(8GB)、RX 6700XT(12GB)、RX 6750XT(12GB)、RX 6800(16GB)、RX 6900XT(16GB)、RX 7900 XT(20GB)、RX 7900 XTX(24GB)

CPU英特爾酷睿i9-13900K

主板:英特爾Z790

內(nèi)存:DDR5 6000 16GB×2

SSD:AORUS NVMe PCIe SSD 2TB

操作系統(tǒng):Windows 11 Pro 22H2

驅(qū)動(dòng)程序:AMD Software Adrenalin Edition 23.4.3

通過(guò)測(cè)試,我們想知道:

AMD Radeon 5000系、6000系和7000系之間,在Stable Diffusion的AI畫(huà)圖算力上有多大差別?

相比傳統(tǒng)的CPU AI計(jì)算加速,AMD GPU加速性能到底如何?

48e6380a-f4cd-11ed-90ce-dac502259ad0.png

▲我們所采用的網(wǎng)絡(luò)開(kāi)源共享的部署方案可以正確實(shí)現(xiàn)AMD顯卡的硬件加速計(jì)算,可以看到在圖片生成的過(guò)程中GPU的占用率一直保持在100%。

模型為Novel AI Final-runed(CKPT)

測(cè)試一:AI生成時(shí)尚美女

在第一部分的測(cè)試中,我們通過(guò)關(guān)鍵詞生成一個(gè)大眼的時(shí)尚美女小姐姐,還要有一定的照片感。關(guān)鍵詞設(shè)置如下(部分引用自網(wǎng)絡(luò)開(kāi)源共享關(guān)鍵詞):

lora0.6> , best quality, ultra high res, (photorealistic:1.4), 1woman, sleeveless white button shirt, black skirt, black choker, cute, (Kpop idol), (aegyo sal:1), (platinum blonde hair:1), ((puffy eyes)), looking at viewer, full body, facing front,fashion,premium

分辨率設(shè)置:512×512

采樣步進(jìn):20

提示詞引導(dǎo)系數(shù):7

生成批次-每批數(shù)量:1-1、4-1

48fc27a0-f4cd-11ed-90ce-dac502259ad0.png

49ba82cc-f4cd-11ed-90ce-dac502259ad0.png

49d8eeba-f4cd-11ed-90ce-dac502259ad0.png

在測(cè)試中由于絕大部分顯卡都擁有8GB以上的顯存,因此我們?cè)谶\(yùn)行參數(shù)上基本設(shè)置了正常的高顯存默認(rèn)模式,只有4GB顯存版的RX 6500XT運(yùn)行時(shí)采用了添加了--lowvram的低顯存運(yùn)行模式(否則就無(wú)法運(yùn)行)。從整體測(cè)試結(jié)果來(lái)看,AMD從Radeon RX 5000系到RX 7000系的顯卡幾乎都很好地實(shí)現(xiàn)了Stable Diffusion應(yīng)用的AI計(jì)算加速性能,尤其是Radeon RX 7000系顯卡性能相比RX 6000系顯卡有了巨大的提升。比如RX 6900XT在該設(shè)置與模型算法下的圖片生成率約為8.87張/秒,而RX 7900 XT則可以達(dá)到15.76張/秒,性能提升接近100%。

而相比CPU來(lái)說(shuō),全系A(chǔ)MD顯卡都占有非常明顯的優(yōu)勢(shì),RX 7900 XT的性能達(dá)到了酷睿i9-13900K的30倍左右,即使前兩代的入門(mén)級(jí)顯卡RX 5500XT,性能上也幾乎接近酷睿i9-13900K的5倍。

唯一有點(diǎn)異常的是RX 6500XT,按照核心規(guī)格來(lái)看,它應(yīng)該是要強(qiáng)于RX 5500XT的,不過(guò)由于顯存配置僅為4GB,因此在測(cè)試中開(kāi)啟了低顯存運(yùn)行模式之后,其圖片上生成速度受到了極大影響,遠(yuǎn)低于GPU加速的正常表現(xiàn),僅能達(dá)到略高于CPU計(jì)算的水準(zhǔn)。

測(cè)試二:AI生成較為復(fù)雜的水邊別墅風(fēng)景照

在接下來(lái)的測(cè)試中,我們用一系列相對(duì)復(fù)雜的關(guān)鍵詞來(lái)生成一座位于水邊的別墅,同時(shí)還伴有陽(yáng)光、波紋、倒影等效果要求。關(guān)鍵詞如下:

‘beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k,’

分辨率設(shè)置:512×512

采樣步進(jìn):50

提示詞引導(dǎo)系數(shù):7.5

生成批次-每批數(shù)量:1-1、2-1、4-1

49f4b492-f4cd-11ed-90ce-dac502259ad0.png

4a7bb71c-f4cd-11ed-90ce-dac502259ad0.png

4a9a0ad2-f4cd-11ed-90ce-dac502259ad0.png

這部分的測(cè)試結(jié)果與前一測(cè)試基本保持了一致性。仍然是RX 7000系顯卡在性能上獨(dú)占鰲頭,相對(duì)于RX 6000系顯卡的對(duì)位提升在100%左右,與CPU的計(jì)算性能相比,GPU加速計(jì)算的性能提升仍然非常顯著,RX 7900 XT的性能達(dá)到了酷睿i9-13900K的30倍左右,入門(mén)級(jí)顯卡RX 5500XT,性能上也幾乎接近酷睿i9-13900K的5倍。

4GB顯存配置RX 6500XT由于僅能在低顯存模式下運(yùn)行,因此圖片上生成速度還是受到了極大影響,遠(yuǎn)低于GPU加速的正常表現(xiàn),大致與酷睿i9-13900K相當(dāng)。

寫(xiě)在最后

這是一次簡(jiǎn)單但卻比較有趣的測(cè)試,通過(guò)這次體驗(yàn),我們認(rèn)為有幾點(diǎn)參考意見(jiàn)可以總結(jié)給玩家們參考:

1.當(dāng)前AMD顯卡已經(jīng)可以通過(guò)開(kāi)源的部署方案實(shí)現(xiàn)在Windows系統(tǒng)下的Stable Diffusion AI計(jì)算加速,而且網(wǎng)上也有許多的傻瓜式整合包,感興趣的玩家完全可以一試;

2.從測(cè)試結(jié)果來(lái)看,AMD顯卡在Stable Diffusion的AI圖片生成計(jì)算中能夠發(fā)揮出遠(yuǎn)勝于CPU計(jì)算的性能增幅,使用GPU加速計(jì)算能帶來(lái)事倍功半的效果;

3.從測(cè)試情況來(lái)看,測(cè)試中當(dāng)渲染分辨率設(shè)置超過(guò)512時(shí)(如768×768),就會(huì)出現(xiàn)爆顯存的情況,這與部署方案和模型有一定關(guān)系,但也反映了在正常模式下運(yùn)行時(shí),8GB顯存幾乎是Stable Diffusion的硬性入門(mén)要求。如果顯存低于8GB,即使在512×512分辨率下渲染,也會(huì)出現(xiàn)顯存不足的情況,此時(shí)就不得不采用--lowvram的低顯存運(yùn)行方案,但會(huì)極大地拖累計(jì)算速度,如測(cè)試中的RX 6500XT 4GB。所以要想暢玩Stable Diffusion,我們建議顯卡的顯存為8GB或更高為佳;

4.從整體結(jié)果來(lái)看,我們認(rèn)為AMD GPU還有極大的算法優(yōu)化空間,憑不可靠經(jīng)驗(yàn)判斷,從RX 7900 XTX到酷睿i9-13900K的性能差距還不足夠大。這和我們部署的算法方案以及模型都有一定關(guān)系,也希望各社區(qū)的程序員們能開(kāi)發(fā)出更多更優(yōu)秀的針對(duì)AMD顯卡的計(jì)算加速方案。

不管如何,AMD顯卡對(duì)Stable Diffusion的硬件加速計(jì)算性能已經(jīng)得到了展現(xiàn),效果也比較明顯,對(duì)AMD顯卡用戶(hù)來(lái)說(shuō)毫無(wú)疑問(wèn)是利好的福音消息,剩下的就是玩家與AMD需要堅(jiān)持的繼續(xù)優(yōu)化之路了。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5690

    瀏覽量

    140073
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4785

    瀏覽量

    98140
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    271

    瀏覽量

    13168

原文標(biāo)題:AI算法畫(huà)小姐姐,AMD顯卡比頂級(jí)CPU快30倍!AMD Radeon顯卡Stable Diffusion AI畫(huà)圖體驗(yàn)測(cè)試

文章出處:【微信號(hào):Microcomputer,微信公眾號(hào):Microcomputer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    歷史首次!AMD服務(wù)器CPU市占率達(dá)50%

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近日,根據(jù)市場(chǎng)研究機(jī)構(gòu)PassMark對(duì)于服務(wù)器CPU 市場(chǎng)占有率調(diào)查的數(shù)據(jù)顯示,截至2025年一季度AMD 在服務(wù)器CPU 市場(chǎng)市占率首次達(dá)到50%,與競(jìng)爭(zhēng)對(duì)手
    的頭像 發(fā)表于 08-11 03:20 ?1.1w次閱讀
    歷史首次!<b class='flag-5'>AMD</b>服務(wù)器<b class='flag-5'>CPU</b>市占率達(dá)50%

    使用NORDIC AI的好處

    × 在 CPU 上運(yùn)行時(shí)可 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁(yè)] Axon NPU 對(duì)同一 TensorFlow Lite 模型:* 推理速度最高可比
    發(fā)表于 01-31 23:16

    Robotec.aiAMD Silo AI的合作實(shí)踐

    AMD Silo AI 正與領(lǐng)先的機(jī)器人應(yīng)用仿真平臺(tái)開(kāi)發(fā)商 Robotec.ai 合作,優(yōu)化和擴(kuò)展基于 AMD GPU 和 ROCm 軟件堆棧的下一代汽車(chē)和機(jī)器人系統(tǒng)的數(shù)字孿生和場(chǎng)景重
    的頭像 發(fā)表于 01-28 16:23 ?763次閱讀

    LPDDR5X在AI數(shù)據(jù)中心多能打?10.7Gbps速率、互連7、推理吞吐高5、延遲低80%!

    廠商們包括三星、美光、SK海力士以及長(zhǎng)鑫存儲(chǔ)等也不斷拉高LPDDR5X的規(guī)格,有望拓展繼智能終端之后AI數(shù)據(jù)中心這類(lèi)新應(yīng)用。 ? 三星電子 ? 三星發(fā)布的前代1.25、功耗效率提
    的頭像 發(fā)表于 01-27 09:35 ?6075次閱讀
    LPDDR5X在<b class='flag-5'>AI</b>數(shù)據(jù)中心多能打?10.7Gbps速率、互連<b class='flag-5'>快</b>7<b class='flag-5'>倍</b>、推理吞吐高5<b class='flag-5'>倍</b>、延遲低80%!

    AMD 推出銳龍 AI 嵌入式處理器產(chǎn)品組合,為汽車(chē)、工業(yè)和物理 AI 領(lǐng)域提供 AI 驅(qū)動(dòng)的沉浸式體驗(yàn)

    新聞亮點(diǎn) ·?全新 AMD 銳龍 AI 嵌入式 P100 和 X100 系列處理器融入了高性能“Zen 5”CPU 核心、AMD RDNA 3.5 GPU 和
    的頭像 發(fā)表于 01-07 14:30 ?532次閱讀
    <b class='flag-5'>AMD</b> 推出銳龍 <b class='flag-5'>AI</b> 嵌入式處理器產(chǎn)品組合,為汽車(chē)、工業(yè)和物理 <b class='flag-5'>AI</b> 領(lǐng)域提供 <b class='flag-5'>AI</b> 驅(qū)動(dòng)的沉浸式體驗(yàn)

    性能提升30:當(dāng)AI存儲(chǔ)沖刺“秒速”,誰(shuí)為它的“出廠體檢”按下快門(mén)?

    SK 海力士與英偉達(dá)合作研發(fā)性能提升 30 AI NAND,凸顯現(xiàn)有測(cè)試驗(yàn)證體系的 “代差” 危機(jī)。傳統(tǒng)測(cè)試難以滿足極端負(fù)載下的精準(zhǔn)性能檢測(cè),面臨接口帶寬延遲、信號(hào)完整性、負(fù)載真實(shí)性三重壁壘
    的頭像 發(fā)表于 12-15 14:17 ?377次閱讀

    AI算法開(kāi)發(fā),SpeedDP打輔助!不止10效率

    。而那些能夠帶來(lái)10工作效率的AI自然能夠輕松取代人類(lèi)。當(dāng)然這也是相對(duì)的,不是每個(gè)領(lǐng)域都適用,廚師再快,也無(wú)法讓實(shí)物10熟;醫(yī)生再優(yōu)秀,也不可能讓病人
    的頭像 發(fā)表于 11-20 18:09 ?655次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算法</b>開(kāi)發(fā),SpeedDP打輔助!不止10<b class='flag-5'>倍</b>效率

    AMD Vitis AI 5.1測(cè)試版現(xiàn)已開(kāi)放下載

    AMD Vitis AI 5.1全新發(fā)布——新增了對(duì) AMD Versal AI Edge 系列神經(jīng)網(wǎng)絡(luò)處理單元( NPU )的支持。Vitis A
    的頭像 發(fā)表于 11-08 09:24 ?1321次閱讀

    AMD Vitis AI 5.1測(cè)試版發(fā)布

    AMD Vitis AI 5.1全新發(fā)布——新增了對(duì) AMD Versal AI Edge 系列神經(jīng)網(wǎng)絡(luò)處理單元 (NPU) 的支持。Vitis A
    的頭像 發(fā)表于 10-31 12:46 ?818次閱讀

    谷歌芯片實(shí)現(xiàn)量子計(jì)算新突破,超算13000

    在特定任務(wù)上的運(yùn)行速度傳統(tǒng)超級(jí)計(jì)算機(jī)13000,并且這種算法可以在類(lèi)似平臺(tái)上得到重現(xiàn)。 ? 量子比特極易受到環(huán)境干擾,導(dǎo)致計(jì)算錯(cuò)誤,這成為量子計(jì)算走向?qū)嵱玫囊淮笞璧K。而谷歌的Wi
    的頭像 發(fā)表于 10-27 06:51 ?9725次閱讀

    今日看點(diǎn):谷歌芯片實(shí)現(xiàn)量子計(jì)算經(jīng)典超算13000;NFC 技術(shù)突破:讀取距離從 5 毫米提升至 20 毫米

    谷歌芯片實(shí)現(xiàn)量子計(jì)算經(jīng)典超算13000 近日,谷歌在《自然》雜志披露與Willow芯片相關(guān)的量子計(jì)算突破性研究成果。該公司稱(chēng)這是歷史上首次證明量子計(jì)算機(jī)可以在硬件上成功運(yùn)行一項(xiàng)可驗(yàn)證算法
    發(fā)表于 10-23 10:20 ?1580次閱讀

    AMD正在邊緣AI領(lǐng)域開(kāi)拓創(chuàng)新

    AMD 正在邊緣 AI 領(lǐng)域開(kāi)拓創(chuàng)新,并為可能實(shí)現(xiàn)的目標(biāo)設(shè)定標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 09-25 16:55 ?902次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書(shū)中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,F(xiàn)PGA屬于AI芯片這個(gè)真不知道,以為它是數(shù)字芯片的,不曉得屬于
    發(fā)表于 09-12 16:07

    八天三次收購(gòu)!AMD收購(gòu)AI芯片制造商Untether AI團(tuán)隊(duì),刺激創(chuàng)新

    電子發(fā)燒友原創(chuàng) 章鷹 6月6日,美國(guó)芯片大廠AMD宣布收購(gòu)加拿大AI推理芯片公司Untether AI。這是AMD公司在短短八天之內(nèi)完成的第三筆收購(gòu)。Untether
    的頭像 發(fā)表于 06-08 07:01 ?6218次閱讀
    八天三次收購(gòu)!<b class='flag-5'>AMD</b>收購(gòu)<b class='flag-5'>AI</b>芯片制造商Untether <b class='flag-5'>AI</b>團(tuán)隊(duì),刺激創(chuàng)新

    RK3588核心板在邊緣AI計(jì)算中的顛覆性?xún)?yōu)勢(shì)與場(chǎng)景落地

    、ResNet50等模型,推理速度較純CPU方案(如i.MX8)5-10,無(wú)需外接加速卡。 全接口覆蓋: 原生支持PCIe 3.0、雙千兆網(wǎng)口、USB 3.1 Gen2、SATA 3.0等接口,可擴(kuò)展5G模組
    發(fā)表于 04-15 10:48