91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Achronix新推出一款用于AI/ML計算或者大模型的B200芯片

Achronix ? 來源:Achronix ? 2024-03-28 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日舉辦的GTC大會把人工智能/機(jī)器學(xué)習(xí)AI/ML)領(lǐng)域中的算力比拼又帶到了一個新的高度,這不只是說明了通用圖形處理器(GPGPU)時代的來臨,而是包括GPU、FPGA和NPU等一眾數(shù)據(jù)處理加速器時代的來臨,就像GPU以更高的計算密度和能效勝出CPU一樣,各種加速器件在不同的AI/ML應(yīng)用或者細(xì)分市場中將各具優(yōu)勢,未來并不是只要貴的而是更需要對的。

此次GTC上新推出的用于AI/ML計算或者大模型的B200芯片有一個顯著的特點,它與傳統(tǒng)的圖形渲染GPU大相徑庭并與上一代用于AI/ML計算的GPU很不一樣。在其他算力器件品種中也是如此,AI/ML計算尤其是推理應(yīng)用需要一種專為高帶寬工作負(fù)載優(yōu)化的新型FPGA,下面我們以Achronix的Speedster7t FPGA芯片為例來看看技術(shù)的演進(jìn)方向,以及在實際推理應(yīng)用中展現(xiàn)出來的在性價比和能效比等方面優(yōu)于先進(jìn)GPU的特性。

先來快速看看Speedster7t的產(chǎn)品亮點:該器件集成了800K到1500K等效邏輯單元以及326K到692K 6輸入查找表(LUT),高達(dá)120T算力的機(jī)器學(xué)習(xí)處理單元(MLP),同時還配備了高性能存儲和I/O接口,以及最高可達(dá)190Mb的嵌入式存儲容量。在外部連接接口部署上,Speedster7t包含16個GDDR6通道,可提供高達(dá)4 Tbps的高速存儲帶寬;32對SerDes通道,支持1-112Gbps的數(shù)據(jù)速率;4個400G以太網(wǎng)端口(4× 400G或16× 100G)和2個PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。

Achronix的Speedster7t FPGA芯片被用戶認(rèn)為非常適合AI/ML推理原因是:足夠的算力,靈活可配的計算精度;高帶寬大容量低成本的GDDR6(4Tbps帶寬, 32GB容量);革命性的全新二維片上網(wǎng)絡(luò)(2D NoC)路由架構(gòu);靈活通用的芯片間互聯(lián);支持用戶基于該芯片開發(fā)自定義的推理系統(tǒng),比如單板多片F(xiàn)PGA甚至多板互聯(lián)以組成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高帶寬和更大容量的計算存儲)以支持更大或超大模型推理部署。

簡而言之,相比傳統(tǒng)的推理算力平臺,Speedster7t FPGA可以提供更高性價比和能耗比的大模型推理能力;另外,在傳統(tǒng)的FPGA處理功能中,越來越多的用戶在該系統(tǒng)中加入機(jī)器學(xué)習(xí)的能力, Speedster7t FPGA能很好勝任傳統(tǒng)FPGA功能和高性能機(jī)器學(xué)習(xí)融合在一起。

一類創(chuàng)新性的高性能FPGA系列產(chǎn)品

Achronix Speedster7t系列FPGA基于革命性的FPGA架構(gòu),該架構(gòu)經(jīng)過了高度優(yōu)化提供了高速、高帶寬內(nèi)外連接,可以滿足日益增長的人工智能/機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)密集型和數(shù)據(jù)加速應(yīng)用的需求。Speedster7t系列FPGA芯片具有一個革命性的全新二維片上網(wǎng)絡(luò),以及一個針對人工智能/機(jī)器學(xué)習(xí)進(jìn)行優(yōu)化的高密度的機(jī)器學(xué)習(xí)處理單元陣列。通過將FPGA的可編程性與類似ASIC路由架構(gòu)和計算引擎相結(jié)合,Speedster7t系列提高了高性能FPGA的標(biāo)準(zhǔn)。

全新的二維片上網(wǎng)絡(luò)(2D NoC)提供ASIC級別的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整個FPGA邏輯陣列中傳輸數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)礁咝阅躀/O和內(nèi)存子系統(tǒng),同時可提供高達(dá)20 Tbps的總帶寬。憑借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可編程邏輯資源的情況下來進(jìn)行數(shù)據(jù)傳輸。在該芯片上的2D NoC提供了20 Tbps的二維片上網(wǎng)絡(luò)總帶寬;該2D NoC不僅覆蓋了芯片全域,而且還連接到各類高速接口和總帶寬高達(dá)4 Tbps的高速存儲接口。

高速接口

無論是支持輸入和輸出的數(shù)據(jù)流,還是存儲緩沖這些數(shù)據(jù),對于高性能計算、機(jī)器學(xué)習(xí)和硬件加速解決方案而言,都需要在片內(nèi)和片外傳輸數(shù)據(jù)。Speedster7t系列FPGA芯片的架構(gòu)可支持前所未有的帶寬。包括:

400G以太網(wǎng):Speedster7t系列FPGA芯片支持多達(dá)4個400GbE端口或16個100GbE端口,通過2D NoC連接到FPGA邏輯。

PCI Express Gen5:Speedster7t系列FPGA芯片配備了多個PCle Gen5接口,支持速率達(dá)32GT/s。

存儲接口:GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存儲器的FPGA,以最低的DRAM成本(每存儲位)提供最快的SDRAM訪問速度。Speedster7t系列FPGA芯片具有高達(dá)4 Tbps的GDDR6帶寬,以很低的成本就可提供相當(dāng)于基于HBM的FPGA存儲器帶寬。Speedster7t系列FPGA芯片包括了DDR4/5存儲器接口,以支持更深入的緩沖需求。PHY和控制器支持由JEDEC規(guī)范定義的所有標(biāo)準(zhǔn)功能。

機(jī)器學(xué)習(xí)處理單元

每個Speedster7t FPGA器件都具有可編程的數(shù)學(xué)計算單元,這些單元被集成至全新的機(jī)器學(xué)習(xí)處理單元(MLP)模塊中。每個MLP都是一個高度可配置的計算密集型模塊,具有多達(dá)32個乘法器/累加器(MAC),支持4到24位整數(shù)格式和各種浮點模式,包括Tensorflow的bfloat16格式以及高效的塊浮點格式,大大提高了性能。

MLP模塊包括緊密集成的嵌入式存儲器模塊,以確保機(jī)器學(xué)習(xí)算法將以750 MHz的最高性能運行。這種高密度計算和高性能數(shù)據(jù)傳輸?shù)慕Y(jié)合造就了高性能機(jī)器學(xué)習(xí)處理結(jié)構(gòu),該結(jié)構(gòu)可提供市場上基于FPGA的極高TOPS級別運算能力(TOPS即Tera-Operations Per Second,每秒萬億次運算)。

479833b0-ecd7-11ee-a297-92fbcf53809c.png

圖中文字說明:Register File - 寄存器文件,F(xiàn)racturable Adder/Accumulator - 可拆分的加法器/累加器,F(xiàn)loat MAC - 浮點乘累加單元(MAC),Memory Cascade in - 存儲器級聯(lián),Operand Cascade in - 操作數(shù)級聯(lián)。 設(shè)計工具支持

Achronix Tool Suite工具套件是一個支持所有Achronix硬件產(chǎn)品的工具鏈。它可與行業(yè)標(biāo)準(zhǔn)的邏輯綜合和仿真工具結(jié)合使用,從而使FPGA設(shè)計人員能夠輕松地將其設(shè)計映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的優(yōu)化版本和Achronix Snapshot調(diào)試器。Achronix仿真庫由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望:在推理等領(lǐng)域幫助開發(fā)者打造綜合性能優(yōu)于先進(jìn)GPU的應(yīng)用

隨著AI/ML技術(shù)在各個領(lǐng)域開始廣泛走進(jìn)應(yīng)用,Achronix根據(jù)Speedster7t FPGA器件的高性能和高帶寬特性,選擇了推理這一個應(yīng)用面非常廣的技術(shù)市場方向,與合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研發(fā),以期幫助更多的創(chuàng)新者實現(xiàn)突破。

該芯片提供了足夠的算力,并利用其片上搭載的二維片上網(wǎng)絡(luò)(2D NoC)和機(jī)器學(xué)習(xí)處理單元(MLP),各種高速接口和GDDR6高帶寬存儲接口,提供了用于大規(guī)模推理應(yīng)用需要的計算器件內(nèi)外連接、硬件加速和存儲調(diào)用等新技術(shù),從而可以支持開發(fā)者快速去實現(xiàn)創(chuàng)新。

這個策略取得了顯著的成果,其中一個領(lǐng)域是加速自動語言識別(ASR)解決方案,它由搭載Speedster7t FPGA器件的VectorPath加速卡提供支持,運行Myrtle.ai提供的基于Achronix FPGA的ASR IP,從而提供業(yè)界領(lǐng)先的、實時的、超低延遲的語音轉(zhuǎn)文本功能。運行在服務(wù)器中的單張VectorPath加速卡可替代多達(dá)20臺僅基于CPU的服務(wù)器或10張GPU加速卡。

Speedster7t FPGA的技術(shù)創(chuàng)新為人工智能推理帶來了更高性價比和更高能效比以及可以讓用戶開發(fā)自定義的推理硬件平臺和系統(tǒng)。 在ASR實際性能方面,其出色的超低單詞錯誤率和僅有最先進(jìn)GPU解決方案八分之一以下的端到端延遲(包括了預(yù)處理和后處理以及與CPU做數(shù)據(jù)交互的時間)顛覆了ASR領(lǐng)域。該解決方案可以在標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)框架中使用垂直應(yīng)用特定的或自定義的數(shù)據(jù)集進(jìn)行定制或重新訓(xùn)練。

對于越來越多的其他的推理應(yīng)用,Speedster7t FPGA的獨創(chuàng)高帶寬架構(gòu)也可以為這些應(yīng)用提供有力的支撐。Achronix正在通過不斷研發(fā),以完善其工具鏈和應(yīng)用生態(tài),將在2024年推出更好的工具來幫助各種推理應(yīng)用的開發(fā),使眾多的用戶更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡來實現(xiàn)性價比和能效提升,而不用去爭搶緊俏的高性能GPU加速卡。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50104

    瀏覽量

    265531
  • 圖形處理器
    +關(guān)注

    關(guān)注

    0

    文章

    202

    瀏覽量

    27534
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8554

    瀏覽量

    136983
  • FPGA器件
    +關(guān)注

    關(guān)注

    1

    文章

    22

    瀏覽量

    11913
  • GDDR6
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    11608

原文標(biāo)題:新型的FPGA器件將支持多樣化AI/ML創(chuàng)新進(jìn)程

文章出處:【微信號:Achronix,微信公眾號:Achronix】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【HD200IS A2 DK 】青翼凌云科技基于昇騰 310B 高可靠智能計算開發(fā)套件

    HD200IS A2 DK 是一款基于華為昇騰 310B 的高性能 AI 智能 計算開發(fā)套件。該開發(fā)套件通過毛紐扣連接器將 310
    的頭像 發(fā)表于 11-17 15:12 ?574次閱讀
    【HD<b class='flag-5'>200</b>IS A2 DK 】青翼凌云科技基于昇騰 310<b class='flag-5'>B</b> 高可靠智能<b class='flag-5'>計算</b>開發(fā)套件

    【HD200I A2(8T)】青翼凌云科技基于昇騰 310B 的智能計算模組

    HD200IA2(8T)是一款基于華為昇騰 310B 的高性能 AI 智能計 算模組。該模組將華為的昇騰 310B
    的頭像 發(fā)表于 11-17 15:06 ?726次閱讀
    【HD<b class='flag-5'>200</b>I A2(8T)】青翼凌云科技基于昇騰 310<b class='flag-5'>B</b> 的智能<b class='flag-5'>計算</b>模組

    【 HD200I A2(20T)】基于昇騰 310B 的智能計算模組

    HD200IA2(20T)是一款基于華為昇騰 310B 的高性能 AI 智能計 算模組。該模組將華為的昇騰 310B
    的頭像 發(fā)表于 11-17 14:54 ?845次閱讀
    【 HD<b class='flag-5'>200</b>I A2(20T)】基于昇騰 310<b class='flag-5'>B</b> 的智能<b class='flag-5'>計算</b>模組

    錦富技術(shù)斬獲液冷板訂單

    隨著AI技術(shù)的發(fā)展和應(yīng)用需求激增,市場對GPU性能的要求持續(xù)攀升,推動GPU芯片加速迭代升級。當(dāng)前,GPU產(chǎn)品正從B200向新B300演
    的頭像 發(fā)表于 10-28 17:39 ?1642次閱讀

    今日看點:高通發(fā)布云端AI芯片;艾為電子推出低功耗Hyper-Hall?芯片 高通發(fā)布云端AI芯片 近日,美國高通公

    ? 高通發(fā)布云端AI芯片 近日,美國高通公司宣布推出新型人工智能芯片AI200
    發(fā)表于 10-28 10:43 ?1083次閱讀

    Achronix亮相2025全球AI芯片峰會

    在近日舉行的2025全球AI芯片峰會上,Achronix Speedster7t FPGA的大模型推理平臺展示獲得眾多業(yè)界人士的積極反響。
    的頭像 發(fā)表于 09-23 18:01 ?1312次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    實例,從而保持高計算效率。 2、Q算法 Q項目將大模型功能與A*和Q-learning等復(fù)雜算法結(jié)合,進(jìn)步推動了AI領(lǐng)域的蓬勃發(fā)展,標(biāo)志著向AGI方向邁出了重要的
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    流體芯片AI計算平臺 ⑥基于AI的自主決策系統(tǒng) ⑦基于AI的自主學(xué)習(xí)系統(tǒng) 2、面臨的挑戰(zhàn) ①需要造就
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    1.1RISC-VISA 擴(kuò)展 1.2 向量協(xié)處理器 1.3 與各級存儲耦合的NPU 1.4 針對Transformer 模型的架構(gòu)優(yōu)化 SwiftTron是一款專用的開源AI加速器,用于
    發(fā)表于 09-12 17:30

    Achronix邀您相約2025全球AI芯片峰會

    9月17,Achronix 將已展臺形式安排專業(yè)人員參加2025全球AI芯片峰會,期待與感興趣朋友現(xiàn)場交流,地點:上海浦東喜來登由由大酒店。
    的頭像 發(fā)表于 09-11 09:25 ?1079次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的不同。隨著AI熱潮的興起,大腦的抽象模型已被提煉成各種的AI算法,并使用半導(dǎo)體芯片技術(shù)加以實現(xiàn)。 而大腦是個由無數(shù)神經(jīng)元通過突觸連接而成
    發(fā)表于 09-06 19:12

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    創(chuàng)新、應(yīng)用創(chuàng)新、系統(tǒng)創(chuàng)新五個部分,接下來一一解讀。 算法創(chuàng)新 在深度學(xué)習(xí)AI芯片的創(chuàng)新上,書中圍繞大模型與Transformer算法的算力需求,提出了系列架構(gòu)與方法創(chuàng)新,包括存內(nèi)
    發(fā)表于 07-28 13:54

    關(guān)于芯片設(shè)計的些基本知識

    芯片的設(shè)計理念眾所周知,芯片擁有極為復(fù)雜的結(jié)構(gòu)。以英偉達(dá)的B200芯片為例,在巴掌大的面積上,塞入了2080億個晶體管。里面的布局,堪稱
    的頭像 發(fā)表于 06-11 12:16 ?1248次閱讀
    關(guān)于<b class='flag-5'>芯片</b>設(shè)計的<b class='flag-5'>一</b>些基本知識

    AlphaEvolve:一款基于Gemini的編程Agent,用于設(shè)計高級算法

    構(gòu)思創(chuàng)新理念。如今,Google 進(jìn)步擴(kuò)展這些能力,將其應(yīng)用于解決數(shù)學(xué)基礎(chǔ)領(lǐng)域和現(xiàn)代計算中高度復(fù)雜的難題。 AlphaEvolve 是一款由大語言
    的頭像 發(fā)表于 05-19 11:19 ?1754次閱讀
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的編程Agent,<b class='flag-5'>用于</b>設(shè)計高級算法

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    錄音人聲質(zhì)量,將vivo X200s打造成安卓首K歌旗艦手機(jī),并獲得臻品錄音Pro級認(rèn)證,給用戶帶來一款錄音室級的K歌神器。 基于天璣AI開發(fā)套件的開源彈性架構(gòu),聯(lián)發(fā)科還與美圖合作
    發(fā)表于 04-13 19:52