91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

請(qǐng)問一下DSP數(shù)學(xué)能否在AI領(lǐng)域戰(zhàn)勝GPU呢?

Astroys ? 來源:Astroys ? 2023-10-26 10:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI芯片初創(chuàng)公司Lemurian Labs發(fā)明了一種專為AI加速設(shè)計(jì)的新型對(duì)數(shù)數(shù)字格式,并正在構(gòu)建一種芯片,利用它為數(shù)據(jù)中心AI工作負(fù)載服務(wù)。

Lemurian的CEO Jay Dawani說:“2018年,我正在為機(jī)器人訓(xùn)練模型,部分是卷積,部分是Transformer,部分是強(qiáng)化學(xué)習(xí)。在1萬個(gè)Nvidia V100 GPU上訓(xùn)練這個(gè)模型需要6個(gè)月時(shí)間……模型呈指數(shù)級(jí)增長(zhǎng),但很少有人有足夠的算力來嘗試訓(xùn)練,很多想法就這樣被放棄了。我試圖為那些有偉大想法但卻苦于沒有算力的普通的ML工程師構(gòu)建模型?!?

對(duì)Lemurian首款芯片的模擬顯示,根據(jù)H100最新的MLPerf推理基準(zhǔn)測(cè)試結(jié)果,Lemurian的新數(shù)字系統(tǒng)與專門設(shè)計(jì)的芯片相結(jié)合,其性能將優(yōu)于Nvidia的H100。在離線模式下,Lemurian芯片在MLPerf版本的GPT-J中每個(gè)芯片每秒可處理17.54次推理(Nvidia H100在離線模式下每秒可處理13.07次推理)。Dawani說,Lemurian的模擬結(jié)果可能在真實(shí)芯片性能的10%以內(nèi),但他的團(tuán)隊(duì)打算今后從軟件中榨取更多性能。他說,軟件優(yōu)化加上稀疏性可以將性能再提高3-5倍。

對(duì)數(shù)數(shù)字系統(tǒng)??

Lemurian的秘訣在于該公司提出的新數(shù)字格式,稱之為PAL(parallel adaptive logarithms)。

Dawani說:“作為一個(gè)行業(yè),我們開始急于采用8位整數(shù)量化,因?yàn)閺挠布慕嵌葋砜?,這是我們所擁有的最有效的東西。但從來沒有軟件工程師說過我想要8位整數(shù)!”

對(duì)于今天的LLM推理而言,INT8的精度已被證明是不夠的,業(yè)界已轉(zhuǎn)向FP8。但Dawani解釋說,AI工作負(fù)載的性質(zhì)意味著數(shù)字經(jīng)常處于亞正常范圍(接近零的區(qū)域),F(xiàn)P8可以表示的數(shù)字較少,因此精度較低。FP8在亞正常范圍內(nèi)的覆蓋率存在差距,這也是許多訓(xùn)練方案需要BF16和FP32等更高精度數(shù)據(jù)類型的原因。

5f6a7d50-73a0-11ee-939d-92fbcf53809c.jpg

比較各種數(shù)字格式的覆蓋范圍。與CFP8(configurable floating point 8)、INT8(integer 8)和現(xiàn)有LNS8(logarithmic number system 8)相比,Lemurian的8位對(duì)數(shù)數(shù)據(jù)類型PAL8在亞正常范圍的覆蓋率更高。

Dawani的聯(lián)合創(chuàng)始人Vassil Dimitrov提出了一個(gè)想法,即通過使用多基數(shù)和多指數(shù)來擴(kuò)展現(xiàn)有的LNS(logarithmic number system),該系統(tǒng)已在DSP中使用了幾十年。

Dawani說:“我們交錯(cuò)表示多個(gè)指數(shù),以重現(xiàn)浮點(diǎn)的精度和范圍。這樣就能提供更好的覆蓋范圍……它自然而然地形成了一個(gè)錐形輪廓,在重要的地方,即在亞正常范圍內(nèi),具有非常高的精度帶?!? 這個(gè)精度帶可以進(jìn)行偏置,以覆蓋所需的區(qū)域,這與浮點(diǎn)運(yùn)算的原理類似,但Dawani說,它允許對(duì)偏置進(jìn)行比浮點(diǎn)運(yùn)算更精細(xì)的控制。

Lemurian開發(fā)了從PAL2到PAL64的PAL格式,其中14位格式與BF16相當(dāng)。與FP8相比,PAL8的精度提高了約一個(gè)比特,大小約為INT8的1.2倍。Dawani希望其它公司也能采用這些格式。

他說:“我希望更多的人使用它,因?yàn)槲艺J(rèn)為是時(shí)候擺脫浮點(diǎn)運(yùn)算了。PAL可以應(yīng)用于目前浮點(diǎn)運(yùn)算的任何應(yīng)用,從DSP到HPC以及兩者之間,而不僅僅是AI,盡管這是我們目前的重點(diǎn)。我們更有可能與其它為這些應(yīng)用構(gòu)建芯片的公司合作,幫助他們采用我們的格式?!?

對(duì)數(shù)加法器??

由于對(duì)數(shù)加法器簡(jiǎn)化了乘法運(yùn)算,因此在大部分為乘法運(yùn)算的DSP工作負(fù)載中,對(duì)數(shù)加法器已使用了很長(zhǎng)時(shí)間。LNS表示的兩個(gè)數(shù)的乘法就是這兩個(gè)對(duì)數(shù)的加法。然而,將兩個(gè)LNS數(shù)字相加卻比較困難。DSP傳統(tǒng)上使用LUT (large lookup table) 來實(shí)現(xiàn)加法運(yùn)算,雖然效率相對(duì)較低,但如果所需的大部分運(yùn)算都是乘法運(yùn)算,這種方法已經(jīng)足夠好了。

對(duì)于AI工作負(fù)載來說,矩陣乘法需要乘法和加法。Dawani說,Lemurian的秘訣之一就是“在硬件上解決了對(duì)數(shù)加法”。

他說:“我們完全摒棄了LUT,創(chuàng)建了一個(gè)純對(duì)數(shù)加法器。我們有一個(gè)比浮點(diǎn)精確得多的精確加法器。我們?nèi)栽谶M(jìn)行更多優(yōu)化,看看能否使它更便宜、更快速。它的PPA(power, performance, area)已經(jīng)比FP8高出兩倍多?!? Lemurian已經(jīng)為這款加法器申請(qǐng)了多項(xiàng)專利。

他說:“DSP界以研究工作負(fù)載并從數(shù)值上理解它在尋找什么著稱,然后加以利用并將其轉(zhuǎn)化為芯片。這與我們正在做的事沒有什么不同。我們并沒有構(gòu)建一個(gè)只做一件事的ASIC,而是研究了整個(gè)神經(jīng)網(wǎng)絡(luò)空間的數(shù)值,并構(gòu)建了一個(gè)具有適度靈活性的特定領(lǐng)域架構(gòu)?!?

5f9296e6-73a0-11ee-939d-92fbcf53809c.jpg

Lemurian數(shù)據(jù)流架構(gòu)的高級(jí)視圖。該芯片是圍繞該公司的對(duì)數(shù)數(shù)字系統(tǒng)設(shè)計(jì)的。

軟件堆棧??

以高效的方式實(shí)現(xiàn)PAL格式需要硬件和軟件。

Dawani說:“我們花了很多心思去思考如何讓硬件更容易編程,因?yàn)槌悄隳苁紫忍岣吖こ處煹纳a(chǎn)力,否則任何架構(gòu)都不會(huì)成功。我寧愿有一個(gè)糟糕的硬件架構(gòu)和一個(gè)優(yōu)秀的軟件堆棧,而不是相反。”

他說,Lemurian在開始考慮硬件架構(gòu)之前,就已經(jīng)構(gòu)建了大約40%的編譯器。如今,Lemurian的軟件堆棧已經(jīng)開始運(yùn)行,Dawani希望保持它的完全開放性,這樣用戶就可以編寫自己的內(nèi)核和融合程序。

軟件堆棧包括Lemurian的混合精度對(duì)數(shù)量化器Paladynn,它可以將浮點(diǎn)和整數(shù)工作負(fù)載映射到PAL格式,同時(shí)保持精度。

他說:“我們采用了神經(jīng)架構(gòu)搜索中的許多想法,并將其應(yīng)用于量化,因?yàn)槲覀兿胱屵@部分變得簡(jiǎn)單?!?/p>

Dawani說,雖然卷積神經(jīng)網(wǎng)絡(luò)的量化相對(duì)容易,但transformer卻并非如此。激活函數(shù)中存在異常值,需要更高的精度,因此transformer總體上可能需要更復(fù)雜的混合精度方法。不過,Dawani說,他正在關(guān)注多項(xiàng)研究工作,這些工作表明,到Lemurian的芯片上市時(shí),transformer可能就不再流行了。

未來的AI工作負(fù)載可能會(huì)遵循Google的Gemini等公司設(shè)定的路徑,即運(yùn)行非確定的步數(shù)。他說,這打破了大多數(shù)硬件和軟件堆棧的假設(shè)。

他說:“如果你事先不知道你的模型需要運(yùn)行多少步,你該如何安排它,你需要在多少計(jì)算上安排它?你需要的是更動(dòng)態(tài)的東西,這影響了我們的很多想法。”

該芯片將是一款300W的數(shù)據(jù)中心加速器,配備128GB HBM3,可提供3.5POPS的密集算力(稀疏性將稍后推出)??傮w而言,Dawani的目標(biāo)是打造一款性能優(yōu)于H100的芯片,并使其價(jià)格與Nvidia上一代A100相當(dāng)。目標(biāo)應(yīng)用包括內(nèi)部AI服務(wù)器(任何行業(yè))和一些二級(jí)或?qū)I(yè)云公司(非超大規(guī)模公司)。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    561

    文章

    8250

    瀏覽量

    366849
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    346

    瀏覽量

    24997
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    307

    瀏覽量

    6521
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2132

    瀏覽量

    36799

原文標(biāo)題:DSP數(shù)學(xué)能否在AI領(lǐng)域戰(zhàn)勝GPU?

文章出處:【微信號(hào):Astroys,微信公眾號(hào):Astroys】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    想請(qǐng)教一下,在哪兒可以找到教材,使用Mixly 來作進(jìn)步修改AI 小智聊天機(jī)寸的程式ESP32 開發(fā)板

    網(wǎng)上買了用ESP32S3 開發(fā)板自己接線的小智AI 聊天機(jī)械人,想請(qǐng)教一下,在哪兒可以找到教材,使用Mixly 來作進(jìn)步修改AI 小智
    發(fā)表于 01-28 15:01

    請(qǐng)問一下,繪制F030系列MCU的時(shí)候,仿真接口是否必須要引出RST?

    請(qǐng)問一下,繪制F030系列MCU的時(shí)候,仿真接口是否必須要引出RST
    發(fā)表于 01-13 07:06

    能否詳細(xì)介紹一下MOSFET電機(jī)控制中的作用是什么?

    能否詳細(xì)介紹一下MOSFET電機(jī)控制中的作用?
    發(fā)表于 12-22 13:11

    重磅合作!Quintauris 聯(lián)手 SiFive,加速 RISC-V 嵌入式與 AI 領(lǐng)域落地

    據(jù)科技區(qū)角報(bào)道半導(dǎo)體解決方案提供商 Quintauris 最近宣布和 RISC-V 處理器 IP 領(lǐng)域的頭部廠商 SiFive 達(dá)成戰(zhàn)略合作,目標(biāo)直接瞄準(zhǔn)加速 RISC-V 嵌入式、AI 系統(tǒng)等
    發(fā)表于 12-18 12:01

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPUGoogle生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”
    的頭像 發(fā)表于 12-17 17:13 ?1814次閱讀
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、TPU的差異化之路,<b class='flag-5'>一</b>文看懂!?

    請(qǐng)問一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    請(qǐng)問一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    發(fā)表于 12-03 06:14

    如何看懂GPU架構(gòu)?分鐘帶你了解GPU參數(shù)指標(biāo)

    GPU架構(gòu)參數(shù)如CUDA核心數(shù)、顯存帶寬、TensorTFLOPS、互聯(lián)方式等,并非“冰冷的數(shù)字”,而是直接關(guān)系設(shè)備能否滿足需求、如何發(fā)揮最大價(jià)值、是否避免資源浪費(fèi)等問題的核心要素。本篇文章將全面
    的頭像 發(fā)表于 10-09 09:28 ?1156次閱讀
    如何看懂<b class='flag-5'>GPU</b>架構(gòu)?<b class='flag-5'>一</b>分鐘帶你了解<b class='flag-5'>GPU</b>參數(shù)指標(biāo)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    AI被賦予了人的智能,科學(xué)家們希望沒有人類的引導(dǎo)AI自主的提出科學(xué)假設(shè),諾貝爾獎(jiǎng)級(jí)別的假設(shè)哦。 AI驅(qū)動(dòng)科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個(gè)范
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的我我們講解了這幾種芯片的應(yīng)用場(chǎng)景,設(shè)計(jì)流程、結(jié)構(gòu)等。 CPU: 還為我們講解了種算法:哈希表算法 GPU: 介紹了英偉達(dá)H100GPU芯片。使用了一下關(guān)鍵技術(shù): ①張量
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件

    保持停滯的情況,依照目前計(jì)算機(jī)的能耗效率,至少還需要30年的努力才接近其水準(zhǔn),見圖1所示。 圖1 大腦與計(jì)算機(jī)的能量效率對(duì)比 圖2 類腦芯片的前瞻性研究領(lǐng)域AI濕件 為此,些想
    發(fā)表于 09-06 19:12

    AI 芯片浪潮,職場(chǎng)晉升新契機(jī)?

    職場(chǎng)、渴望專業(yè)領(lǐng)域更進(jìn)步的人來說,AI 芯片與職稱評(píng)審之間,實(shí)則有著千絲萬縷的聯(lián)系,為職業(yè)晉升開辟了新的路徑。 AI 芯片
    發(fā)表于 08-19 08:58

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問有人知道aicube怎樣才能讀取n卡的gpu索引,我已經(jīng)安裝了cuda和cudnn,全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)
    發(fā)表于 07-25 08:18

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?直接發(fā)個(gè)安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發(fā)表于 07-09 18:30

    請(qǐng)問CYPM1011-24LQXI能否直接在keil MDK中開發(fā)?

    抱歉打擾一下,請(qǐng)問這款芯片CYPM1011-24LQXI能否直接在keil MDK中開發(fā)
    發(fā)表于 05-30 06:20

    DSP智能家電領(lǐng)域的應(yīng)用,涵蓋音效處理、語音識(shí)別、智能化控制

    結(jié)構(gòu),配備專門的硬件乘法器,廣泛運(yùn)用流水線操作,并提供特殊的?DSP?指令,可快速實(shí)現(xiàn)各類數(shù)字信號(hào)處理算法。 ? DSP??AI?中的應(yīng)用及優(yōu)勢(shì)? 盡管?
    的頭像 發(fā)表于 04-14 00:42 ?2793次閱讀