日韩福利在线观看,探花国产精品一区二区,黄色电影视频大全在线免费观看

今年的Hot Chips，Cerebras搞了個大新聞，各種媒體刷屏。那么，除了史上最大芯片之外，Hot Chips還有哪些值得關(guān)注的內(nèi)容？一起來看芯片專家唐杉的解讀。

首先，Cerebras這次確實做了非常好的宣傳，各種介紹和分析也很多，我就不多說了。不管大家怎么評價，我個人還是很欽佩他們的工作的，所以拼了一張AI芯片的圖，算是致敬一下給我們帶來“美感”的工程師們。

這幾天介紹Hot Chips的文章也很多，我就全憑個人興趣挑幾個點(diǎn)和大家一起看一下。今年我自己沒有參會，所以主要是根據(jù)演講的材料以及Anandtech上的Live Blog做一些分析。如果大家感興趣，也可以看看我去年寫的文章（Hot Chips 30，黃金時代的縮影，Hot Chips 30 - 機(jī)器學(xué)習(xí)，Hot Chips 30 - 巨頭們亮“肌肉”），有些內(nèi)容可以作為參考。

摩爾定律怎么“續(xù)命”

從某種意義上說，我們整個半導(dǎo)體產(chǎn)業(yè)都是在為摩爾定律的延續(xù)而努力，即我們希望能給18個月之后的應(yīng)用需求提供成倍增長的“性能”支撐，只不過現(xiàn)在這個承諾不再是單單靠工藝節(jié)點(diǎn)的演進(jìn)和晶體管數(shù)目來支撐了。

這次Hop Chips上的兩個主旨演講，可以說就是從不同角度討論了這個問題。一個是處理器巨頭AMD的Dr. Lisa Su分享的“Delivering the Future of High-Performance Computing”；另一個是TSMC的Dr. Philip Wong分享的“What Will the Next Node Offer Us?”。先看看Lisa Su的總結(jié)，為了給未來十年提供高性能計算能力，我們可做和要做的事情還是很多的。

source:Hot Chips 2019[1]

從Foundry的角度，Dr. Philip Wong講的就更直接，“MOORE’S LAW IS WELL AND ALIVE”，不過他的說法也不是單獨(dú)針對晶體管的性能，而是各種技術(shù)綜合發(fā)展的結(jié)果。

source:Hot Chips 2019[2]

從架構(gòu)“黃金時代”（黃金時代）的說法來看，工藝演進(jìn)速度放緩并不一定是壞事情，大家為了延續(xù)摩爾定律會在更多的方向上努力。比如，在這次會議上，Nvidia展示的工作[3]就是一個覆蓋了很多領(lǐng)域和設(shè)計環(huán)節(jié)的實驗。它包括Multi-chip架構(gòu)，NoC(Network-on-Chip)和NoP(Network-on-Package)構(gòu)成的層次化通信，高帶寬的inter-chip互聯(lián)，甚至是敏捷開發(fā)方法，挺有意思。而Facebook的講演[4]也介紹了大型系統(tǒng)協(xié)同設(shè)計的非常好的實踐。而在其它很多講演中，比如Intel，Nvidia，AMD，華為等等，我們也可以大量看到新型封裝和集成技術(shù)的應(yīng)用和快速進(jìn)展。

NN加速器架構(gòu)的下一步

這次也有幾家展示了NN加速器的架構(gòu)，比較詳細(xì)的包括華為和Tesla。我們先看看Tesla。

source:Hot Chips 2019 [3]

應(yīng)該說，Tesla的NNA不管從指令集還是微架構(gòu)都和Google TPU（公開的第一代）非常類似，MAC矩陣實現(xiàn)卷積和矩陣乘，SIMD實現(xiàn)其它運(yùn)算，再加一些特殊運(yùn)算的硬件加速。這種架構(gòu)應(yīng)該是目前看到最多的設(shè)計，簡單直接，硬件實現(xiàn)比較容易，挑戰(zhàn)是MAC矩陣的使用效率。當(dāng)然，在很多細(xì)節(jié)上，Tesla的NNA還是做了不少優(yōu)化。如我之前的文章的分析，Tesla的芯片完全是自用的，合適就好，沒有太多可比性（多角度解析Tesla FSD 自動駕駛芯片）。

相比之下，華為的DaVinci Core應(yīng)該是結(jié)合了這幾年的AI芯片經(jīng)驗和深入的思考。其特點(diǎn)是在一個Core里面同時支持3D（Cube），2D（Vector）和1D（Scalar）的運(yùn)算，以適應(yīng)不同網(wǎng)絡(luò)和不同層的運(yùn)算分布的變化。當(dāng)然，把各種運(yùn)算架構(gòu)放在一個Core里面并不是特別困難的事情，更難的是設(shè)計參數(shù)的選擇，運(yùn)算和存儲的比例，軟件mapping工具等等。這些問題在華為的talk里也給出了一些分析。

source:Hot Chips 2019 [4]

另外，Intel和Xilinx也展示了他們的AI加速Core的設(shè)計。如下：

source:Hot Chips 2019 [5]

source:Hot Chips 2019 [6]

從指標(biāo)來看，目前比較容易對比的主要是云端inference芯片，Nvidia的T4，Habana的Goya，Intel的NNP-I，都有ResNet-50的IPS（Image Per Second）和IPSW（IPS/W）數(shù)據(jù)。

data source：廠商

如果考慮到T4并不是單純的inference功能，以及NNP-I的工藝優(yōu)勢，那么大家的Inference IPSW指標(biāo)的差異并沒有太大。當(dāng)然，可能得等大家都提交了MLPerf的結(jié)果，我們才可能進(jìn)行更完整和公平的對比。對于指標(biāo)的分析，大家也可以看看我之前的文章，“數(shù)據(jù)中心AI Inference芯片今年能達(dá)到什么樣的性能？”，看起來我之前的預(yù)測沒太大問題。

我們再看Trainning芯片，不論是Nvidia，Google，Habana還是Intel這次發(fā)布NNP-T，更重要的已經(jīng)不是NN加速器core的架構(gòu)，而是存儲容量，訪存帶寬，和可擴(kuò)展能力。

所以，不管是從大家公布的架構(gòu)，還是從指標(biāo)來看，從TPU，Eyeriss，NVDLA到今天的Tesla FSD芯片和華為的DaVinci Core，如果不考慮基于新型存儲和器件的特殊設(shè)計，可以說NN加速器基本的硬件架構(gòu)已經(jīng)定型，主要工作是設(shè)計參數(shù)的優(yōu)化或者針對不同應(yīng)用的 trade off。換句話說，新架構(gòu)（專用處理器相對CPU和GPGPU）的紅利已經(jīng)充分兌現(xiàn)了。那么，對于架構(gòu)設(shè)計者來說，下一步的機(jī)會是什么呢？個人感覺可能有下面一些方向。也歡迎大家留言討論。

第一，更專用NNA的設(shè)計。一般來說我們即使是做Domain-Specific設(shè)計，也希望芯片能夠面向一類而非一個應(yīng)用。但如果一個應(yīng)用（比如只跑一個典型網(wǎng)絡(luò)）有足夠大的市場和更嚴(yán)格的PPA要求（一般芯片滿足不了），做一個更專用的設(shè)計也未嘗不可，甚至可能是很好的機(jī)會。這種情況在我們說的IoT應(yīng)用里比較多，芯片不大，但對PPA很敏感，適合算法硬件協(xié)同能力強(qiáng)，并且可以快速迭代的團(tuán)隊。當(dāng)然，這種模式成立有個大前提，即AI使能更多新的應(yīng)用，并越來越快的落地。

第二，從單純NN加速設(shè)計到“NN+非NN”加速設(shè)計。在NN可以實現(xiàn)真正的end-to-end之前，即使是所謂的AI應(yīng)用，NN算法和非NN算法也會在一起共存很長時間。一個好的架構(gòu)應(yīng)該是加速完整的應(yīng)用而不僅僅是NN部分（其實用戶根本不在乎你的架構(gòu)），這個需求在Edge/Device這個應(yīng)用領(lǐng)域更為明顯。解決這個問題有兩種思路，一個是異構(gòu)架構(gòu)的優(yōu)化，特別是NN和非NN算法在不同硬件架構(gòu)上的mapping和協(xié)同。另一個思路是以比較傳統(tǒng)的Vector DSP（即可以做NN加速，也可以做很多傳統(tǒng)算法，包括CV和語音，有可能會有優(yōu)勢）為基礎(chǔ)，以特殊指令或緊耦合的加速器的形式集成小規(guī)模的Tensor Core，來找到更好的平衡點(diǎn)。

第三，軟硬件協(xié)同設(shè)計還是有很大空間。在DaVinci的例子里，即使硬件支持不同粒度的運(yùn)算，在實際網(wǎng)絡(luò)怎么用好這些硬件也還是非常困難的課題。最近我討論這個話題也比較多（AI芯片“軟硬件協(xié)同設(shè)計”的理想與實踐）。其實這次Hot Chips上Google的tutorial就是“Cloud TPU: Codesigning Architecture and Infrastructure”。這里并沒有太多的介紹TPU架構(gòu)，而是把重心放在了協(xié)同設(shè)計上，其的內(nèi)容也遠(yuǎn)遠(yuǎn)超出了NN加速本身。從這里也可以看出，未來的協(xié)同設(shè)計不僅僅是NN加速器這一個點(diǎn)，而在“高手過招”當(dāng)中，必須要完整考慮整個系統(tǒng)的優(yōu)化。

source:Hot Chips 2019 [7]

一個有趣的插曲是，當(dāng)我在朋友圈分享這個內(nèi)容的時候。一個評論是“每次這種會上，都會覺得“哇好有道理”，然后一想好像又啥都沒說”。其實協(xié)同設(shè)計的現(xiàn)狀也類似，就是看起來很美，做起來不易。

另外，這次會議還有一個來自Stanford AHA Agile Hardware Center的名為“Creating An Agile Hardware Flow”的演講，也是在講如何快速進(jìn)行軟硬件協(xié)同設(shè)計。他們的一個思考是，協(xié)同設(shè)計最大的挑戰(zhàn)在于設(shè)計空間太大，為了縮小探索的空間，我們可以使用CGRA可重構(gòu)硬件架構(gòu)作為硬件基礎(chǔ)（只需探索CGRA的配置）；以HalideDSL作為穩(wěn)定的軟硬件接口，實現(xiàn)優(yōu)化的解耦。所以，從軟硬件協(xié)同設(shè)計這個角度來看，CGRA架構(gòu)也是非常值得關(guān)注的。這個話題我后面會找時間詳細(xì)討論。

存內(nèi)計算和“近存儲”計算

去年的Hot Chips上，基于Flash Cell做存內(nèi)計算的初創(chuàng)公司Mythic很受關(guān)注，我也做過比較詳細(xì)的分析（Hot Chips 30 - 機(jī)器學(xué)習(xí)）。這一年以來，基于各種memory cell，包括SRAM，DRAM，F(xiàn)LASH和新型存儲器件，MRAM，RRAM等等的存內(nèi)計算初創(chuàng)公司大量涌現(xiàn)，非常熱鬧。其實除了存內(nèi)計算，還有另一類“近存儲”計算。借杜克大學(xué)燕博南同學(xué)的一張圖說明一下。

其中In-Memory的意思是直接使用存儲單元陣列來做計算，一般是模擬方式，通過AD/DA和數(shù)字邏輯部分交互。而Near-Memory則是盡量把運(yùn)算邏輯（處理器或者加速器）放在離存儲單元比較近的地方。

在這次的會議上，一個初創(chuàng)公司upmem，雖然自稱是PIM，但實際走的是近存儲計算的路線。upmem的產(chǎn)品看起來和傳統(tǒng)的DRAM顆粒和DIMM沒有什么區(qū)別，但在每個4Gb DRAM顆粒里嵌入了8個處理器核。

source:Hot Chips 2019 [10]

這是近存儲計算的一個很好的例子，在DRAM里的處理器可以分擔(dān)CPU的工作，減少不必要的數(shù)據(jù)搬移，當(dāng)然有很多好處。但是要真正把計算邏輯和DRAM放在一起并不是那么容易的，其中最大的挑戰(zhàn)就是如何使用DRAM工藝來支持處理器設(shè)計，下圖列舉了主要的困難。

source:Hot Chips 2019 [10]

所以，這個講演的大量內(nèi)容是如何克服DRAM工藝的這些困難設(shè)計處理器，包括：

1. 在DRAM工藝上建立數(shù)字邏輯的flow，比如Logic cell library，SRAM IP和Logic Design & Validation flow，這些是處理器設(shè)計和實現(xiàn)的基礎(chǔ)；

2. 使用比較“慢”的晶體管設(shè)計實現(xiàn)“快”的處理器的方法，14級流水實現(xiàn)500MHz，Interleaved pipeline，24個硬件線程（這個是保證深流水線效率的主要方式）。

3. 不使用Cache，而是Explicit memory hierarchy，這個也和多線程有關(guān)系。

4. 優(yōu)化的指令集，專門強(qiáng)調(diào)了沒有使用ARM和RISC-V。這里也解釋了，由于不需要運(yùn)行OS，所以沒有必要考慮兼容性問題，只要實現(xiàn)CLANG/LLVM的支持。

此外，在DRAM中加了這么多處理器核，怎么使用（編程模型）是個問題。在upmem的講演中也分析了這方面的內(nèi)容。（此處圖配錯了，抱歉）

source:Hot Chips 2019 [10]

如果我們考慮近存儲計算，其實還有一個大量存儲數(shù)據(jù)的地方，就是硬盤。因此，現(xiàn)在也有很多的SSD控制器芯片加入的更多的計算功能。比如前一段時間我們看到初創(chuàng)公司InnoGrit就在SSD控制器芯片中加入了NDLA專門加速AI運(yùn)算。當(dāng)然除了直接在芯片中增強(qiáng)算力，還有一種模式就是在SSD控制器外增加FPGA，比如三星的Smart SSD方案（下圖）。在這次Hot Chips的Poster里面，就有一個來自Bigstream的工作是基于Smart SSD構(gòu)建的應(yīng)用框架。

source:samsungatfirst.com/smartssd/

總的來說，相對存內(nèi)計算，不依賴工藝進(jìn)展的近存儲計算可能更容易在短期內(nèi)落地。但和存內(nèi)計算一樣，近存儲計算也需要有完整的軟硬件解決方案，否則簡單增加的算力可能僅僅是雞肋。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴