91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI訓(xùn)練勢(shì)起,GPU要讓位了?

? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2021-12-18 06:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))人工智能在進(jìn)化的過(guò)程中,最不可或缺的便是模型和算力。訓(xùn)練出來(lái)的通用大模型省去了重復(fù)的開(kāi)發(fā)工作,目前不少大模型都為學(xué)術(shù)研究和AI開(kāi)發(fā)提供了方便,比如華為的盤(pán)古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么訓(xùn)練出這樣一個(gè)大模型需要怎樣的硬件前提?如何以較低的成本完成自己模型訓(xùn)練工作?這些都是不少AI初創(chuàng)企業(yè)需要考慮的問(wèn)題,那么如今市面上有哪些訓(xùn)練芯片是經(jīng)得起考驗(yàn)的呢?我們先從國(guó)外的幾款產(chǎn)品開(kāi)始看起。

英偉達(dá)A100

英偉達(dá)的A100可以說(shuō)是目前AI訓(xùn)練界的明星產(chǎn)品,A100剛面世之際可以說(shuō)是世界上最快的深度學(xué)習(xí)GPU。盡管近來(lái)有無(wú)數(shù)的GPU或其他AI加速器試圖在性能上撼動(dòng)它的地位,但綜合實(shí)力來(lái)看,A100依然穩(wěn)坐頭把交椅。

A100 GPU / 英偉達(dá)A100可是英偉達(dá)特推出的首個(gè)7nm GPU,在826mm2的芯片大小上鋪滿了542億個(gè)晶體管。要知道,其消費(fèi)級(jí)GPU雖然同樣采用安培架構(gòu),但仍在使用三星的8nm制程。至于算力什么的,GPU在單個(gè)或多個(gè)處理器配置上都有著不俗的優(yōu)勢(shì),甚至還能憑借英偉達(dá)自己的互聯(lián)技術(shù)實(shí)現(xiàn)更高的帶寬。具體的算力數(shù)據(jù)我們也已提過(guò)多次,我們這次講的是AI訓(xùn)練,自然是要比訓(xùn)練上的表現(xiàn),這里先留個(gè)懸念。 性能雖高,但使用A100的成本可并不便宜。今年10月,微軟和英偉達(dá)推出了迄今為止訓(xùn)練最強(qiáng)大的生成語(yǔ)言模型Megatron-Turing Natural Language Generation(MT-NLG),擁有5300億個(gè)參數(shù)。如此強(qiáng)大的模型究竟是如何訓(xùn)練出來(lái)的呢?答案是560個(gè)英偉達(dá)DGX A100服務(wù)器,每個(gè)服務(wù)器都內(nèi)置了8 x A100 80GB GPU,訓(xùn)練出這個(gè)模型的造價(jià)最低也要在百萬(wàn)美元以上。 如此看來(lái),難不成這些模型只能靠購(gòu)置昂貴的GPU,或是靠花錢(qián)如流水一般的GPU服務(wù)器來(lái)訓(xùn)練了?并非如此。

英特爾Gaudi和Ponte Vecchio

19年12月,英特爾收購(gòu)了以色列的Habana Labs,將其旗下的AI加速器產(chǎn)品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓(xùn)練的Gaudi處理器。盡管Habana Labs已經(jīng)隸屬英特爾,但現(xiàn)有的產(chǎn)品仍然基于臺(tái)積電的16nm制程,傳言稱(chēng)其正在開(kāi)發(fā)的Gaudi2將用上臺(tái)積電的7nm制程。 目前Gaudi已經(jīng)用于亞馬遜云服務(wù)AWS的EC2 DL1訓(xùn)練實(shí)例中,該實(shí)例選用了AWS定制的英特爾第二代Xeon可擴(kuò)展處理器,最多可配置8個(gè)Gaudi處理器,每個(gè)處理器配有32GB的HBM內(nèi)存,400Gbps的網(wǎng)絡(luò)架構(gòu)加上100Gbps的互聯(lián)帶寬,并支持4TB的NVMe存儲(chǔ)。

Gaudi與A100在ResNet-50和BERT訓(xùn)練成本上的對(duì)比 / Habana Labs Habana Labs和AWS共同宣稱(chēng),Gaudi的方案可以提供云端深度學(xué)習(xí)模型訓(xùn)練的最佳性?xún)r(jià)比,與最新的GPU實(shí)例相比性?xún)r(jià)比高出40%。Habana Labs給出了直接的價(jià)格對(duì)比,在對(duì)比AWS EC2 P4d實(shí)例(8個(gè)英偉達(dá)A100 GPU)時(shí),8個(gè)Gaudi處理器的每小時(shí)價(jià)格為13.11美元,比前者低了60%。針對(duì)特定的模型,Habana Labs也對(duì)A100和V100方案進(jìn)行了對(duì)比,比如利用Tensorflow實(shí)現(xiàn)ResNet50圖像處理(BF16/FP16)時(shí),Gaudi處理每張圖片的成本要比A100低46%,更是比V100低了61%。 Habana Labs為Gaudi定義的用例主要在物體識(shí)別/分割、圖像分類(lèi)和自然語(yǔ)言處理器方面的深度學(xué)習(xí)模型訓(xùn)練。比如生產(chǎn)中的故障檢測(cè)、醫(yī)療中的2D/3D掃描和醫(yī)學(xué)成像、自動(dòng)駕駛中的物體分割以及文本情感分析等等。 我們都知道在超算領(lǐng)域中,英特爾在主要處理器上的份額與出場(chǎng)率都比較高,加速器上則依舊是英偉達(dá)和AMD的GPU占優(yōu),不過(guò)Habana Labs的Gaudi其實(shí)已經(jīng)開(kāi)始發(fā)力,比如圣地亞哥超級(jí)計(jì)算中心SDSC)打造的AI超算Voyager。這里的Voyager可不是TOP500新晉第十名的Voyager-EUS2,而是SDSC打造的一款試驗(yàn)性超算,專(zhuān)注于高性能高效率的AI運(yùn)算,該超算集成了336個(gè)Gaudi訓(xùn)練處理器和16個(gè)Goya推理處理器。

A100與Ponte Vecchio在ResNet-50 v1.5上的訓(xùn)練表現(xiàn)對(duì)比 / 英特爾 不過(guò)英特爾似乎也不打算放棄GPU這條路,甚至打算走的更遠(yuǎn)一點(diǎn)。今年的架構(gòu)日上,英特爾為其Ponte Vecchio Xe HPC GPU透露了更多的細(xì)節(jié)。英特爾拿出了ResNet-50單個(gè)GPU處理圖像的訓(xùn)練結(jié)果對(duì)比,Ponte Vecchio獲得了超過(guò)3400張圖片每秒的成績(jī),而英偉達(dá)單張A100 GPU的成績(jī)?yōu)?963張圖片每秒。根據(jù)Habana Labs于19年六月公布的數(shù)據(jù),單個(gè)Gaudi處理器的成績(jī)?yōu)?650張圖片每秒。 單從結(jié)果來(lái)看,英特爾和英偉達(dá)兩者打造的旗艦GPU在模型訓(xùn)練上還是很有優(yōu)勢(shì)的,而且還能承擔(dān)推理工作負(fù)載,Gaudi的性能確實(shí)更適合高性?xún)r(jià)比的專(zhuān)用訓(xùn)練場(chǎng)景。依小編的觀點(diǎn)來(lái)看,Ponte Vecchio更像是英特爾為HPC+AI準(zhǔn)備的一張GPU,明年開(kāi)始出貨后我們說(shuō)不定會(huì)在超算上看到更多應(yīng)用。而Gaudi更像是為云服務(wù)和數(shù)據(jù)中心準(zhǔn)備的訓(xùn)練處理器,讓開(kāi)發(fā)者在可負(fù)擔(dān)的價(jià)格下享受到優(yōu)秀的性能。更不用說(shuō)英特爾也開(kāi)始為FPGA(Stratix 10 NX)在相同的方向上鋪路,英特爾可以說(shuō)是為AI開(kāi)發(fā)者提供了多個(gè)選擇。

亞馬遜Trainium

最后我們以亞馬遜的訓(xùn)練芯片收尾,亞馬遜提供的服務(wù)器實(shí)例可以說(shuō)是最多樣化的,也包含了以上提到的A100和Gaudi。亞馬遜作為云服務(wù)巨頭,早已開(kāi)始部署自己的服務(wù)器芯片生態(tài),不僅在今年推出了第三代Graviton服務(wù)器處理器,也正式發(fā)布了去年公開(kāi)的訓(xùn)練芯片Trainium,并推出了基于該芯片的Trn1實(shí)例。

Trn1實(shí)例的參數(shù) / 亞馬遜 Trn1的計(jì)算引擎頻率達(dá)到了3GHz,峰值內(nèi)存帶寬為13.1TB/s,F(xiàn)P32的算力為840TFLOPS,最出色的數(shù)據(jù)還是800Gbps的網(wǎng)絡(luò)帶寬,亞馬遜甚至還提供了一個(gè)1.6TB。再次重申,這些都只是紙面參數(shù)而已,實(shí)際表現(xiàn)才是最重要的。

亞馬遜訓(xùn)練實(shí)例對(duì)比 / 亞馬遜 據(jù)亞馬遜發(fā)布的數(shù)據(jù),同樣是在兩周內(nèi)完成GPT-3模型的訓(xùn)練,需要600個(gè)8 x V100 GPU的實(shí)例,或是128個(gè)8xA100 GPU的實(shí)例,但若用上16 x Trainium的實(shí)例,則只要96個(gè)。亞馬遜稱(chēng)Trn1為云端成本效率最高的實(shí)例,這一點(diǎn)還真沒(méi)說(shuō)錯(cuò)。

小結(jié)

GPU一時(shí)半會(huì)不會(huì)跌落AI訓(xùn)練的神壇,但其他訓(xùn)練芯片的推陳出新證明了他們面對(duì)A100和Ponte Vecchio這種大規(guī)模芯片同樣不懼,甚至還有自己獨(dú)到的優(yōu)勢(shì)。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5200

    瀏覽量

    135534
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39943

    瀏覽量

    301570
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)傳輸拖慢訓(xùn)練?三維一體調(diào)度讓AI任務(wù)提速40%

    作為AI開(kāi)發(fā)者,你是否無(wú)數(shù)次陷入這樣的困境:訓(xùn)練千億參數(shù)大模型,數(shù)據(jù)傳輸占了總耗時(shí)的60%,GPU空轉(zhuǎn)等待如同“帶薪摸魚(yú)”;跨地域調(diào)用算力,公網(wǎng)帶寬瓶頸讓TB級(jí)數(shù)據(jù)集傳輸動(dòng)輒耗時(shí)數(shù)天;算力、數(shù)據(jù)
    的頭像 發(fā)表于 01-26 14:20 ?143次閱讀

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓
    的頭像 發(fā)表于 12-17 17:13 ?1813次閱讀
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、TPU的差異化之路,一文看懂!?

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開(kāi)發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世
    的頭像 發(fā)表于 09-23 17:15 ?2429次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    連接定義神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。 不同神經(jīng)網(wǎng)絡(luò)的DNN: 一、基于大模型的AI芯片 1、Transformer 模型與引擎 1.1 Transformer 模型概述 Transformer 模型的出現(xiàn)
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    當(dāng)今社會(huì),AI已經(jīng)發(fā)展很迅速,但是你了解AI的發(fā)展歷程嗎?本章作者將為我們打開(kāi)AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 從2017年開(kāi)始生成式AI
    發(fā)表于 09-12 16:07

    AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?

    職場(chǎng)、渴望在專(zhuān)業(yè)領(lǐng)域更進(jìn)一步的人來(lái)說(shuō),AI 芯片與職稱(chēng)評(píng)審之間,實(shí)則有著千絲萬(wàn)縷的聯(lián)系,為職業(yè)晉升開(kāi)辟新的路徑。 AI 芯片領(lǐng)域細(xì)分與職稱(chēng)對(duì)應(yīng) 目前,AI 芯片從技術(shù)架構(gòu)上主要分為
    發(fā)表于 08-19 08:58

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    引領(lǐng)AI時(shí)代網(wǎng)絡(luò)變革:睿海光電的核心競(jìng)爭(zhēng)力 在AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI云的轉(zhuǎn)型。AI工廠依賴(lài)超大規(guī)模
    發(fā)表于 08-13 19:01

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒(méi)有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問(wèn)有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    并行計(jì)算的崛起:為什么GPU將在邊緣AI中取代NPU

    人工智能(AI)不僅是一項(xiàng)技術(shù)突破,它更是軟件編寫(xiě)、理解和執(zhí)行方式的一次永久性變革。傳統(tǒng)的軟件開(kāi)發(fā)基于確定性邏輯和大多是順序執(zhí)行的流程,而如今這一范式正在讓位于概率模型、訓(xùn)練行為以及數(shù)據(jù)驅(qū)動(dòng)的計(jì)算
    的頭像 發(fā)表于 06-06 14:55 ?722次閱讀
    并行計(jì)算的崛起:為什么<b class='flag-5'>GPU</b>將在邊緣<b class='flag-5'>AI</b>中取代NPU

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)現(xiàn)計(jì)算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2
    的頭像 發(fā)表于 05-06 11:17 ?1561次閱讀
    提升<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>性能:<b class='flag-5'>GPU</b>資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶(hù)特定應(yīng)用場(chǎng)景,用戶(hù)采集照片或視頻,通過(guò)AI數(shù)據(jù)訓(xùn)練工程師**(用戶(hù)公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練
    發(fā)表于 04-28 11:11

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供一套開(kāi)放式AI訓(xùn)練產(chǎn)品工具包,解決客戶(hù)低成本AI系統(tǒng),針對(duì)差異化
    發(fā)表于 04-28 11:05

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    和性能隔離能力,以保障不同用戶(hù)任務(wù)互不干擾。 分布式AI計(jì)算與網(wǎng)絡(luò)架構(gòu)設(shè)計(jì) 分布式計(jì)算已成為AI訓(xùn)練的主流方式,通過(guò)將工作負(fù)載分配到多個(gè)GPU節(jié)點(diǎn)并行處理,以加速模型
    發(fā)表于 03-25 17:35

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開(kāi)源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過(guò)深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能GPU上實(shí)現(xiàn)
    的頭像 發(fā)表于 03-17 17:05 ?1536次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計(jì)算助力<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>