亚洲欲女国产精品,国产精品一区凹凸视频

在本系列的前幾篇文章中（ "人工智能引發(fā)能源問題，我們?cè)撛趺崔k （一） “ 和”在 "人工智能引發(fā)能源問題，我們?cè)撛趺崔k （二）"），我們討論了 Dennard Scaling 和摩爾定律的細(xì)目以及對(duì)專用和適應(yīng)性加速器的需求。然后，我們深入研究了功耗問題，并討論了網(wǎng)絡(luò)壓縮的高級(jí)優(yōu)勢(shì)。

在這第三篇文章中，我們將探討專門構(gòu)建的“計(jì)算有效”神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)和挑戰(zhàn)。

神經(jīng)網(wǎng)絡(luò)可以被歸類為一組大致模仿人腦建模方式的算法，能夠通過引入新數(shù)據(jù)來完成“學(xué)習(xí)”過程。事實(shí)上，開發(fā)專用的“計(jì)算高效型”神經(jīng)網(wǎng)絡(luò)模型能提供大量?jī)?yōu)勢(shì)。然而，為了確保模型的有效性，需要考慮幾項(xiàng)關(guān)鍵需求。

關(guān)鍵點(diǎn)之一是在實(shí)現(xiàn)推斷加速器（或就此點(diǎn)而言，廣義的硬件加速器）時(shí)應(yīng)采用何種方式訪問存儲(chǔ)器。在機(jī)器學(xué)習(xí) (ML) 推斷范疇內(nèi)，我們特別需要考慮如何將權(quán)重和中間激活值一起存儲(chǔ)。過去幾年里已有多種方法投入使用并獲得不同程度的成功。相關(guān)的架構(gòu)選擇帶來的影響十分顯著：

時(shí)延：對(duì) L1、L2 和 L3 存儲(chǔ)器的訪問表現(xiàn)出相對(duì)較低的時(shí)延。如果與下一個(gè)圖形運(yùn)算有關(guān)的權(quán)重和激活值被緩存起來，那么我們就能保持合理水平的效率。然而，如果我們要從外部 DDR 提取數(shù)據(jù)，就會(huì)發(fā)生流水線停頓，進(jìn)而影響時(shí)延和效率。

功耗：訪問外部存儲(chǔ)器的能耗至少比訪問內(nèi)部存儲(chǔ)器大一個(gè)數(shù)量級(jí)。

計(jì)算飽和：一般而言，應(yīng)用要么受計(jì)算限制，要么受存儲(chǔ)器限制。這可能會(huì)影響給定推斷范式中可實(shí)現(xiàn)的 GOP/TOP，而且在某些情況下，這種影響不可小視。如果被部署的具體網(wǎng)絡(luò)的實(shí)際性能是 1 TOP，那么使用能達(dá)到 10 TOP 峰值性能的推斷引擎價(jià)值就不大。

在此基礎(chǔ)上更進(jìn)一步，考慮到訪問現(xiàn)代賽靈思器件里的內(nèi)部 SRAM（熟悉賽靈思 SoC 的人也稱其為 BRAM 或 UltraRAM）的能耗大約在幾微微焦耳，與訪問外部 DRAM 的能耗相比，低大約兩個(gè)數(shù)量級(jí)。

我們可以考慮將 TPUv1 作為架構(gòu)示例。TPUv1 內(nèi)置有一個(gè) 65,536 INT8 MAC 單元，與 28MB 的片上存儲(chǔ)器結(jié)合，用于存儲(chǔ)中間激活值。權(quán)重從外部 DDR 提取。TPUv1 的理論峰值性能是 92 TOPS。

圖 1：TPUv1 架構(gòu)

參考資料：Jouppi 等，2017 年，https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

TPU 是其中一種非常普遍的 Tensor 加速器。它使用復(fù)雜的編譯器來調(diào)度圖形運(yùn)算。這種 TPU 對(duì)于特定工作負(fù)載（引用 CNNO 的速率達(dá)到 86 TOPS）體現(xiàn)出極為優(yōu)異的吞吐效率。然而，CNN 的計(jì)算/內(nèi)存引用比低于 MLP 和 LSTM。因此我們可以看出這些特定的工作負(fù)載受存儲(chǔ)器限制。在必須將新權(quán)重加載到矩陣單元中時(shí)，會(huì)導(dǎo)致流水線停頓，CNN1 性能也就會(huì)隨之劣化（14.1 TOPS）。

圖 2：各種網(wǎng)絡(luò)拓?fù)湎?TPUv1 的極限性能水平

參考資料：Jouppi 等，2017 年，

https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)性能有巨大影響，而且對(duì)于選擇推斷解決方案而言，峰值性能指標(biāo)的價(jià)值微乎其微（除非我們能為需要加速的特定工作負(fù)載實(shí)現(xiàn)高水平的效率）。如今，眾多 SoC、ASSP 和 GPU 廠商繼續(xù)為 LeNet、AlexNet、VGG、GoogLeNet 和 ResNet 等經(jīng)典圖像分類模型推廣性能測(cè)試基準(zhǔn)。然而，圖像分類任務(wù)的實(shí)際用例數(shù)量有限，而許多時(shí)候這種模型只是用作對(duì)象檢測(cè)與分割等更復(fù)雜的任務(wù)的后臺(tái)特征提取器。

更貼近現(xiàn)實(shí)的實(shí)際可部署模型的示例包括對(duì)象檢測(cè)與分割。盡管眾多市售半導(dǎo)體器件標(biāo)榜可提供數(shù)十 TOP 的性能，而這又與不得不花長(zhǎng)時(shí)間為 YOLOv3 和 SSD 等網(wǎng)絡(luò)辛苦找尋正式的 IPS 性能基準(zhǔn)測(cè)試的現(xiàn)狀有何關(guān)聯(lián)？開玩笑的說，如果只是要在云存儲(chǔ)中簡(jiǎn)單查找照片，比如找出您的貓的照片，我看這真不是什么問題：

圖 3：作者收養(yǎng)的家貓“TumbleWeed”

大量開發(fā)者在首次嘗試設(shè)計(jì)帶有 AI 功能的產(chǎn)品時(shí)往往以不能滿足性能要求而告終，迫使他們?cè)谠O(shè)計(jì)中途遷移到不同的架構(gòu)上。這不足為奇。如果這么做意味著需要同時(shí)對(duì) SOM 基板的軟硬件進(jìn)行重新構(gòu)建，難度將不可小覷。選擇賽靈思 SoC 的主要原因在于，與競(jìng)爭(zhēng)對(duì)手的解決方案不同的是，賽靈思推斷解決方案能在保持處理器和推斷加速器架構(gòu)不變的情況下，直接提供超過一個(gè)數(shù)量級(jí)的性能縮放。

2017 年谷歌的一個(gè)研發(fā)團(tuán)隊(duì)（Howard 等，《MobileNet：面向移動(dòng)視覺應(yīng)用的高效卷積神經(jīng)網(wǎng)絡(luò)》https://arxiv.org/pdf/1704.04861.pdf ）發(fā)表了針對(duì)移動(dòng)應(yīng)用的一類新的模型。MobileNet 的優(yōu)勢(shì)在于它能在保持高精度水平的同時(shí)，顯著降低計(jì)算成本。MobileNet 網(wǎng)絡(luò)采用的重大創(chuàng)新之一是深度可分卷積。在經(jīng)典卷積中，每個(gè)輸入通道對(duì)每個(gè)輸出通道都有影響。如果我們有 100 個(gè)輸入通道和 100 個(gè)輸出通道，就有 100x100 條虛擬路徑。然而對(duì)深度卷積而言，我們將卷積層劃分為 100 個(gè)群組，因此只得到 100 條路徑。每個(gè)輸入通道僅與一個(gè)輸出通道相連接，這樣就能節(jié)省大量計(jì)算。

圖 4：經(jīng)典卷積和深度卷積的連接方式

參考資料：Song Yao，Hotchips Hc30，第 8 節(jié)：