91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

除了史上最大芯片之外,Hot Chips還有哪些值得關(guān)注的內(nèi)容?

DPVg_AI_era ? 來源:lq ? 2019-09-07 07:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今年的Hot Chips,Cerebras搞了個大新聞,各種媒體刷屏。那么,除了史上最大芯片之外,Hot Chips還有哪些值得關(guān)注的內(nèi)容?一起來看芯片專家唐杉的解讀。

首先,Cerebras這次確實做了非常好的宣傳,各種介紹和分析也很多,我就不多說了。不管大家怎么評價,我個人還是很欽佩他們的工作的,所以拼了一張AI芯片的圖,算是致敬一下給我們帶來“美感”的工程師們。

這幾天介紹Hot Chips的文章也很多,我就全憑個人興趣挑幾個點(diǎn)和大家一起看一下。今年我自己沒有參會,所以主要是根據(jù)演講的材料以及Anandtech上的Live Blog做一些分析。如果大家感興趣,也可以看看我去年寫的文章(Hot Chips 30,黃金時代的縮影,Hot Chips 30 - 機(jī)器學(xué)習(xí),Hot Chips 30 - 巨頭們亮“肌肉”),有些內(nèi)容可以作為參考。

摩爾定律怎么“續(xù)命”

從某種意義上說,我們整個半導(dǎo)體產(chǎn)業(yè)都是在為摩爾定律的延續(xù)而努力,即我們希望能給18個月之后的應(yīng)用需求提供成倍增長的“性能”支撐,只不過現(xiàn)在這個承諾不再是單單靠工藝節(jié)點(diǎn)的演進(jìn)和晶體管數(shù)目來支撐了。

這次Hop Chips上的兩個主旨演講,可以說就是從不同角度討論了這個問題。一個是處理器巨頭AMD的Dr. Lisa Su分享的“Delivering the Future of High-Performance Computing”;另一個是TSMC的Dr. Philip Wong分享的“What Will the Next Node Offer Us?”。先看看Lisa Su的總結(jié),為了給未來十年提供高性能計算能力,我們可做和要做的事情還是很多的。

source:Hot Chips 2019[1]

從Foundry的角度,Dr. Philip Wong講的就更直接,“MOORE’S LAW IS WELL AND ALIVE”,不過他的說法也不是單獨(dú)針對晶體管的性能,而是各種技術(shù)綜合發(fā)展的結(jié)果。

source:Hot Chips 2019[2]

從架構(gòu)“黃金時代”(黃金時代)的說法來看,工藝演進(jìn)速度放緩并不一定是壞事情,大家為了延續(xù)摩爾定律會在更多的方向上努力。比如,在這次會議上,Nvidia展示的工作[3]就是一個覆蓋了很多領(lǐng)域和設(shè)計環(huán)節(jié)的實驗。它包括Multi-chip架構(gòu),NoC(Network-on-Chip)和NoP(Network-on-Package)構(gòu)成的層次化通信,高帶寬的inter-chip互聯(lián),甚至是敏捷開發(fā)方法,挺有意思。而Facebook的講演[4]也介紹了大型系統(tǒng)協(xié)同設(shè)計的非常好的實踐。而在其它很多講演中,比如Intel,Nvidia,AMD,華為等等,我們也可以大量看到新型封裝和集成技術(shù)的應(yīng)用和快速進(jìn)展。

NN加速器架構(gòu)的下一步

這次也有幾家展示了NN加速器的架構(gòu),比較詳細(xì)的包括華為和Tesla。我們先看看Tesla。

source:Hot Chips 2019 [3]

應(yīng)該說,Tesla的NNA不管從指令集還是微架構(gòu)都和Google TPU(公開的第一代)非常類似,MAC矩陣實現(xiàn)卷積和矩陣乘,SIMD實現(xiàn)其它運(yùn)算,再加一些特殊運(yùn)算的硬件加速。這種架構(gòu)應(yīng)該是目前看到最多的設(shè)計,簡單直接,硬件實現(xiàn)比較容易,挑戰(zhàn)是MAC矩陣的使用效率。當(dāng)然,在很多細(xì)節(jié)上,Tesla的NNA還是做了不少優(yōu)化。如我之前的文章的分析,Tesla的芯片完全是自用的,合適就好,沒有太多可比性(多角度解析Tesla FSD自動駕駛芯片)。

相比之下,華為的DaVinci Core應(yīng)該是結(jié)合了這幾年的AI芯片經(jīng)驗和深入的思考。其特點(diǎn)是在一個Core里面同時支持3D(Cube),2D(Vector)和1D(Scalar)的運(yùn)算,以適應(yīng)不同網(wǎng)絡(luò)和不同層的運(yùn)算分布的變化。當(dāng)然,把各種運(yùn)算架構(gòu)放在一個Core里面并不是特別困難的事情,更難的是設(shè)計參數(shù)的選擇,運(yùn)算和存儲的比例,軟件mapping工具等等。這些問題在華為的talk里也給出了一些分析。

source:Hot Chips 2019 [4]

另外,Intel和Xilinx也展示了他們的AI加速Core的設(shè)計。如下:

source:Hot Chips 2019 [5]

source:Hot Chips 2019 [6]

從指標(biāo)來看,目前比較容易對比的主要是云端inference芯片,Nvidia的T4,Habana的Goya,Intel的NNP-I,都有ResNet-50的IPS(Image Per Second)和IPSW(IPS/W)數(shù)據(jù)。

data source:廠商

如果考慮到T4并不是單純的inference功能,以及NNP-I的工藝優(yōu)勢,那么大家的Inference IPSW指標(biāo)的差異并沒有太大。當(dāng)然,可能得等大家都提交了MLPerf的結(jié)果,我們才可能進(jìn)行更完整和公平的對比。對于指標(biāo)的分析,大家也可以看看我之前的文章,“數(shù)據(jù)中心AI Inference芯片今年能達(dá)到什么樣的性能?”,看起來我之前的預(yù)測沒太大問題。

我們再看Trainning芯片,不論是Nvidia,Google,Habana還是Intel這次發(fā)布NNP-T,更重要的已經(jīng)不是NN加速器core的架構(gòu),而是存儲容量,訪存帶寬,和可擴(kuò)展能力。

所以,不管是從大家公布的架構(gòu),還是從指標(biāo)來看,從TPU,Eyeriss,NVDLA到今天的Tesla FSD芯片和華為的DaVinci Core,如果不考慮基于新型存儲和器件的特殊設(shè)計,可以說NN加速器基本的硬件架構(gòu)已經(jīng)定型,主要工作是設(shè)計參數(shù)的優(yōu)化或者針對不同應(yīng)用的 trade off。換句話說,新架構(gòu)(專用處理器相對CPU和GPGPU)的紅利已經(jīng)充分兌現(xiàn)了。那么,對于架構(gòu)設(shè)計者來說,下一步的機(jī)會是什么呢?個人感覺可能有下面一些方向。也歡迎大家留言討論。

第一,更專用NNA的設(shè)計。一般來說我們即使是做Domain-Specific設(shè)計,也希望芯片能夠面向一類而非一個應(yīng)用。但如果一個應(yīng)用(比如只跑一個典型網(wǎng)絡(luò))有足夠大的市場和更嚴(yán)格的PPA要求(一般芯片滿足不了),做一個更專用的設(shè)計也未嘗不可,甚至可能是很好的機(jī)會。這種情況在我們說的IoT應(yīng)用里比較多,芯片不大,但對PPA很敏感,適合算法硬件協(xié)同能力強(qiáng),并且可以快速迭代的團(tuán)隊。當(dāng)然,這種模式成立有個大前提,即AI使能更多新的應(yīng)用,并越來越快的落地。

第二,從單純NN加速設(shè)計到“NN+非NN”加速設(shè)計。在NN可以實現(xiàn)真正的end-to-end之前,即使是所謂的AI應(yīng)用,NN算法和非NN算法也會在一起共存很長時間。一個好的架構(gòu)應(yīng)該是加速完整的應(yīng)用而不僅僅是NN部分(其實用戶根本不在乎你的架構(gòu)),這個需求在Edge/Device這個應(yīng)用領(lǐng)域更為明顯。解決這個問題有兩種思路,一個是異構(gòu)架構(gòu)的優(yōu)化,特別是NN和非NN算法在不同硬件架構(gòu)上的mapping和協(xié)同。另一個思路是以比較傳統(tǒng)的Vector DSP(即可以做NN加速,也可以做很多傳統(tǒng)算法,包括CV和語音,有可能會有優(yōu)勢)為基礎(chǔ),以特殊指令或緊耦合的加速器的形式集成小規(guī)模的Tensor Core,來找到更好的平衡點(diǎn)。

第三,軟硬件協(xié)同設(shè)計還是有很大空間。在DaVinci的例子里,即使硬件支持不同粒度的運(yùn)算,在實際網(wǎng)絡(luò)怎么用好這些硬件也還是非常困難的課題。最近我討論這個話題也比較多(AI芯片“軟硬件協(xié)同設(shè)計”的理想與實踐)。其實這次Hot Chips上Google的tutorial就是“Cloud TPU: Codesigning Architecture and Infrastructure”。這里并沒有太多的介紹TPU架構(gòu),而是把重心放在了協(xié)同設(shè)計上,其的內(nèi)容也遠(yuǎn)遠(yuǎn)超出了NN加速本身。從這里也可以看出,未來的協(xié)同設(shè)計不僅僅是NN加速器這一個點(diǎn),而在“高手過招”當(dāng)中,必須要完整考慮整個系統(tǒng)的優(yōu)化。

source:Hot Chips 2019 [7]

一個有趣的插曲是,當(dāng)我在朋友圈分享這個內(nèi)容的時候。一個評論是“每次這種會上,都會覺得“哇好有道理”,然后一想好像又啥都沒說”。其實協(xié)同設(shè)計的現(xiàn)狀也類似,就是看起來很美,做起來不易。

另外,這次會議還有一個來自Stanford AHA Agile Hardware Center的名為“Creating An Agile Hardware Flow”的演講,也是在講如何快速進(jìn)行軟硬件協(xié)同設(shè)計。他們的一個思考是,協(xié)同設(shè)計最大的挑戰(zhàn)在于設(shè)計空間太大,為了縮小探索的空間,我們可以使用CGRA可重構(gòu)硬件架構(gòu)作為硬件基礎(chǔ)(只需探索CGRA的配置);以HalideDSL作為穩(wěn)定的軟硬件接口,實現(xiàn)優(yōu)化的解耦。所以,從軟硬件協(xié)同設(shè)計這個角度來看,CGRA架構(gòu)也是非常值得關(guān)注的。這個話題我后面會找時間詳細(xì)討論。

存內(nèi)計算和“近存儲”計算

去年的Hot Chips上,基于Flash Cell做存內(nèi)計算的初創(chuàng)公司Mythic很受關(guān)注,我也做過比較詳細(xì)的分析(Hot Chips 30 - 機(jī)器學(xué)習(xí))。這一年以來,基于各種memory cell,包括SRAM,DRAM,F(xiàn)LASH和新型存儲器件,MRAM,RRAM等等的存內(nèi)計算初創(chuàng)公司大量涌現(xiàn),非常熱鬧。其實除了存內(nèi)計算,還有另一類“近存儲”計算。借杜克大學(xué)燕博南同學(xué)的一張圖說明一下。

其中In-Memory的意思是直接使用存儲單元陣列來做計算,一般是模擬方式,通過AD/DA和數(shù)字邏輯部分交互。而Near-Memory則是盡量把運(yùn)算邏輯(處理器或者加速器)放在離存儲單元比較近的地方。

在這次的會議上,一個初創(chuàng)公司upmem,雖然自稱是PIM,但實際走的是近存儲計算的路線。upmem的產(chǎn)品看起來和傳統(tǒng)的DRAM顆粒和DIMM沒有什么區(qū)別,但在每個4Gb DRAM顆粒里嵌入了8個處理器核。

source:Hot Chips 2019 [10]

這是近存儲計算的一個很好的例子,在DRAM里的處理器可以分擔(dān)CPU的工作,減少不必要的數(shù)據(jù)搬移,當(dāng)然有很多好處。但是要真正把計算邏輯和DRAM放在一起并不是那么容易的,其中最大的挑戰(zhàn)就是如何使用DRAM工藝來支持處理器設(shè)計,下圖列舉了主要的困難。

source:Hot Chips 2019 [10]

所以,這個講演的大量內(nèi)容是如何克服DRAM工藝的這些困難設(shè)計處理器,包括:

1. 在DRAM工藝上建立數(shù)字邏輯的flow,比如Logic cell library,SRAM IP和Logic Design & Validation flow,這些是處理器設(shè)計和實現(xiàn)的基礎(chǔ);

2. 使用比較“慢”的晶體管設(shè)計實現(xiàn)“快”的處理器的方法,14級流水實現(xiàn)500MHz,Interleaved pipeline,24個硬件線程(這個是保證深流水線效率的主要方式)。

3. 不使用Cache,而是Explicit memory hierarchy,這個也和多線程有關(guān)系。

4. 優(yōu)化的指令集,專門強(qiáng)調(diào)了沒有使用ARMRISC-V。這里也解釋了,由于不需要運(yùn)行OS,所以沒有必要考慮兼容性問題,只要實現(xiàn)CLANG/LLVM的支持。

此外,在DRAM中加了這么多處理器核,怎么使用(編程模型)是個問題。在upmem的講演中也分析了這方面的內(nèi)容。(此處圖配錯了,抱歉)

source:Hot Chips 2019 [10]

如果我們考慮近存儲計算,其實還有一個大量存儲數(shù)據(jù)的地方,就是硬盤。因此,現(xiàn)在也有很多的SSD控制器芯片加入的更多的計算功能。比如前一段時間我們看到初創(chuàng)公司InnoGrit就在SSD控制器芯片中加入了NDLA專門加速AI運(yùn)算。當(dāng)然除了直接在芯片中增強(qiáng)算力,還有一種模式就是在SSD控制器外增加FPGA,比如三星的Smart SSD方案(下圖)。在這次Hot Chips的Poster里面,就有一個來自Bigstream的工作是基于Smart SSD構(gòu)建的應(yīng)用框架。

source:samsungatfirst.com/smartssd/

總的來說,相對存內(nèi)計算,不依賴工藝進(jìn)展的近存儲計算可能更容易在短期內(nèi)落地。但和存內(nèi)計算一樣,近存儲計算也需要有完整的軟硬件解決方案,否則簡單增加的算力可能僅僅是雞肋。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54148

    瀏覽量

    467579
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    339

    文章

    30966

    瀏覽量

    265354
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2135

    瀏覽量

    36817

原文標(biāo)題:史上最大芯片長得像iPad?那你還沒看懂Hot Chips

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    2026值得關(guān)注的存儲技術(shù)

    作者:黃晶晶 ? 在AI發(fā)展浪潮下,算力體系的軟硬件協(xié)同適配能力持續(xù)躍升,從芯片架構(gòu)優(yōu)化、大模型逐漸收斂到算力調(diào)度機(jī)制,全鏈路的技術(shù)迭代已大幅消解算力供給與應(yīng)用需求間的適配性矛盾。當(dāng)算力不再是制約
    的頭像 發(fā)表于 01-03 05:54 ?1.4w次閱讀
    2026<b class='flag-5'>值得</b><b class='flag-5'>關(guān)注</b>的存儲技術(shù)

    馬斯克擬建全球最大芯片廠,進(jìn)軍2nm芯片制造!

    3月22日,馬斯克宣布SpaceX、特斯拉攜手人工智能公司xAI,正在建設(shè)史上規(guī)模最大芯片制造工廠“Terafab”,這是私營公司計劃的最大半導(dǎo)體制造業(yè)務(wù)之一。
    的頭像 發(fā)表于 03-25 16:14 ?152次閱讀

    CW32W031除了QFN64之外還有其他封裝嗎?

    CW32W031除了QFN64之外還有其他封裝么?比如32或者20的封裝有么?
    發(fā)表于 01-19 08:25

    聯(lián)想集團(tuán)史上最大規(guī)模Tech World科技盛會成功舉辦

    2026年1月6日,全球消費(fèi)電子展CES 2026開幕首日,聯(lián)想集團(tuán)史上最大規(guī)模的Tech World科技盛會在全球首座全沉浸式球幕場館——拉斯維加斯大球Sphere成功舉辦。
    的頭像 發(fā)表于 01-09 16:29 ?966次閱讀
    聯(lián)想集團(tuán)<b class='flag-5'>史上</b><b class='flag-5'>最大</b>規(guī)模Tech World科技盛會成功舉辦

    探索HMC8410CHIPS:0.01 GHz至10 GHz的GaAs低噪聲放大器

    探索HMC8410CHIPS:0.01 GHz至10 GHz的GaAs低噪聲放大器 引言 在當(dāng)今的射頻和微波領(lǐng)域,低噪聲放大器(LNA)是至關(guān)重要的組件,它能有效放大微弱信號并盡量減少噪聲干擾。今天
    的頭像 發(fā)表于 01-06 10:45 ?258次閱讀

    或成史上最貴!蘋果A20芯片成本近2000元,漲價80%

    據(jù)行業(yè)消息,蘋果首款2nm工藝芯片A20單顆成本預(yù)計高達(dá)280美元(約合1959元人民幣),較上一代A19增幅達(dá)80%,很可能成為智能手機(jī)史上“最貴芯片”。
    的頭像 發(fā)表于 01-05 18:02 ?753次閱讀

    史上最大IPO!傳SpaceX明年上市,估值或逾10萬億

    全球商業(yè)航天巨頭SpaceX,正被傳將于2026年中啟動上市計劃,估值有望突破1萬億美元,甚至可能達(dá)到1.5萬億美元,這或?qū)⑹蛊涑蔀?b class='flag-5'>史上規(guī)模最大的IPO。
    的頭像 發(fā)表于 12-13 13:40 ?1059次閱讀

    NVIDIA在Hot Chips 2025大會展示創(chuàng)新技術(shù)

    本周在加利福尼亞州帕洛阿爾托(Palo Alto)舉行的 Hot Chips 大會上,NVIDIA 專家詳細(xì)介紹了 NVIDIA NVLink 和Spectrum-X 以太網(wǎng)技術(shù)、Blackwell 以及 CUDA 如何為全球數(shù)百萬的 AI 工作流加速推理。
    的頭像 發(fā)表于 08-27 12:52 ?1986次閱讀

    增加語音控制功能關(guān)注這幾顆芯片輕松搞定

    增加語音控制功能關(guān)注這幾顆芯片輕松搞定 目前感覺幾乎所有的頭部或者非頭部的產(chǎn)品都在爭先恐后的上語音控制功能,產(chǎn)品單價高的上離在線AI對話功能,產(chǎn)品單價低的上離線語音控制功能。為什么都在上語音控制功能
    的頭像 發(fā)表于 08-19 16:46 ?1001次閱讀

    105億!Amphenol史上最大收購!

    ),是Amphenol史上規(guī)模最大的一宗收購,而這一消息也標(biāo)志著Amphenol在數(shù)據(jù)中心和高速互聯(lián)網(wǎng)基礎(chǔ)設(shè)施領(lǐng)域的又一次重大布局。 ? Amphenol這次收購的目標(biāo)業(yè)務(wù)詳細(xì)產(chǎn)品包括,有線電視及住宅寬帶聯(lián)網(wǎng)設(shè)備、數(shù)據(jù)中心光纖及銅纜連接方案、DOCSIS/PON 等主流光
    的頭像 發(fā)表于 08-05 09:15 ?3107次閱讀

    博世80億美元收購美國江森自控(Johnson Controls)暖通空調(diào)(HVAC)業(yè)務(wù)!博世歷史上最大收購

    日前,德國博世集團(tuán)宣布,正式完成對美國江森自控(Johnson Controls)暖通空調(diào)(HVAC)業(yè)務(wù)的收購,總耗資達(dá)到80億美元(約74億歐元)。 據(jù)了解,這筆交易是博世公司史上規(guī)模最大的收購
    的頭像 發(fā)表于 08-04 18:17 ?2711次閱讀
    博世80億美元收購美國江森自控(Johnson Controls)暖通空調(diào)(HVAC)業(yè)務(wù)!博世歷<b class='flag-5'>史上</b><b class='flag-5'>最大</b>收購

    想要做低功耗藍(lán)牙的組網(wǎng),除了藍(lán)牙MESH之外還有什么更好的方式嗎

    做低功耗藍(lán)牙的開發(fā)應(yīng)用,如果涉及到的節(jié)點(diǎn)比較多,對傳輸?shù)姆秶途嚯x比較遠(yuǎn)的話,大家可能會首先想到藍(lán)牙m(xù)esh,藍(lán)牙m(xù)esh能夠接的節(jié)點(diǎn)是非常多的,但是也會有個問題,那就是跳的節(jié)點(diǎn)越多,系統(tǒng)的延時也就越多,而且數(shù)據(jù)量不會特別大,不然在整個網(wǎng)絡(luò)中數(shù)據(jù)泛洪,網(wǎng)絡(luò)的壓力可想而知,其實,如果你的網(wǎng)絡(luò)節(jié)點(diǎn)不是非常多的情況下,采用藍(lán)牙主從一體的方式,也是一個不錯的實現(xiàn)方式,通過一個節(jié)點(diǎn)做BLE的主從一體,兼顧了網(wǎng)絡(luò)的拓展,也能實現(xiàn)可靠的數(shù)據(jù)傳輸,例如PTR54L15-AQI,就能很好的實現(xiàn)這些功能。
    發(fā)表于 06-30 12:53

    當(dāng)我問DeepSeek國內(nèi)芯片封測有哪些值得關(guān)注的企業(yè),它這樣回我

    出國內(nèi)十大值得關(guān)注的封測企業(yè)時,列表中其中既有長電科技等傳統(tǒng)巨頭,也有萬年芯這樣的專精特新力量。1.長電科技作為全球第三大封測企業(yè),長電科技以FCBGA(倒裝芯片球柵格
    的頭像 發(fā)表于 05-12 14:56 ?6327次閱讀
    當(dāng)我問DeepSeek國內(nèi)<b class='flag-5'>芯片</b>封測有哪些<b class='flag-5'>值得</b><b class='flag-5'>關(guān)注</b>的企業(yè),它這樣回我

    史上最全電源反激計算表格(建議下載?。?/a>

    純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評論支持一下哦~)
    發(fā)表于 05-08 16:40

    用EMC思想來設(shè)計DC/DC電源的PCB

    在DC/DC芯片的應(yīng)用中,我們需要提前來規(guī)劃EMC的設(shè)計,避免在后期把太多的時間和精力花在整改和優(yōu)化上。其實DC/DC電源的PCB設(shè)計,在滿足基本電源工作的功能之外,考慮功率路徑滿足通流能力,路徑
    發(fā)表于 04-15 13:40