91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Series4擁有經(jīng)得起未來考驗的性能和計算密度

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:Imagination Tech ? 2021-04-19 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)的多功能性和強(qiáng)大功能意味著現(xiàn)代神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯、動作識別、任務(wù)規(guī)劃、情感分析和圖像處理等領(lǐng)域有著廣泛的應(yīng)用。隨著該領(lǐng)域的不斷成熟,不可避免的,專業(yè)化程度也越來越高,而且呈現(xiàn)加速的趨勢。這使保持現(xiàn)有技術(shù)水平成為一項挑戰(zhàn),更不用說預(yù)測神經(jīng)網(wǎng)絡(luò)的未來計算需求了。

神經(jīng)網(wǎng)絡(luò)加速器 (NNA) IP 的設(shè)計者手頭有一項艱巨的任務(wù):確保他們的產(chǎn)品具有足夠的通用性,能夠應(yīng)用于當(dāng)前和未來非常廣泛的應(yīng)用,同時保證高性能。在Imagination公司最前沿的 IMG Series4 NNA 所針對的移動、汽車、數(shù)據(jù)中心嵌入式領(lǐng)域中,對帶寬、面積和功耗有更嚴(yán)格的限制。Imagination公司的工程師們已經(jīng)找到了創(chuàng)新的方法來應(yīng)對這些嚴(yán)峻挑戰(zhàn),并提供超高性能和面向未來的IP。

利用率與靈活性

每個IMG Series4 多核NNA的核心是行業(yè)領(lǐng)先的卷積引擎陣列,每秒可執(zhí)行 10 萬億次操作。四核Series4 NNA每秒可完成驚人的40萬億次操作,簡稱40TOPS。其架構(gòu)的一個顯著特點(diǎn)是效率:數(shù)據(jù)盡可能緊密地打包在卷積引擎的輸入上,以實現(xiàn)最大可能的利用率,這意味著芯片面積保持最小。Series4 NNA 包含幾個高度優(yōu)化、可快速配置的硬件模塊,用于池化、標(biāo)準(zhǔn)化和激活功能等操作。

這種專業(yè)化程度顯然在網(wǎng)絡(luò)與硬件很匹配的情況下獲得了巨大的回報,也就是說,當(dāng)網(wǎng)絡(luò)由卷積層、池化層、激活層等“傳統(tǒng)”層組成,但是這樣的體系結(jié)構(gòu)如何擴(kuò)展以支持更復(fù)雜的操作,比如注意機(jī)制和非最大化抑制?

有兩個明顯的選擇:

在硬件中添加新的專用塊。

使硬件具有高度可編程性和通用性。

其中第一個主要問題是,它會導(dǎo)致硬件膨脹和暗硅——如果在一些應(yīng)用程序中需要多1%的計算時間,那么我們需要一個固定的功能模塊嗎?不——我們必須獲得盡可能重復(fù)使用硬件。這也意味著硬件總是保持最前沿的工藝技術(shù)。添加固定功能模塊說明硬件未來會過時,NNA的設(shè)計師們之前遇到過不少硬件適用性受限于操作類型的案例。第一種方法導(dǎo)致硬件膨脹或強(qiáng)制使用額外的“協(xié)處理器”,如GPUDSPCPU:硅面積、帶寬、能量和復(fù)雜性都會增加。大多數(shù)NNA 設(shè)計人員都選擇第二種方案。這種方法的例子是基于向量 ALU 和脈動陣列的設(shè)計。復(fù)雜性從硬件轉(zhuǎn)移到軟件,這一切都符合計算機(jī)體系結(jié)構(gòu)中歷史悠久的 RISC(精簡指令集計算機(jī))哲學(xué)。然而,要付出巨大的代價——計算密度的降低。為達(dá)到40 TOPS 的目標(biāo), Series4 NNA架構(gòu)師必須容忍芯片面積和功耗的大幅增長。Imagination的研究人員認(rèn)為,一定存在第三種方式。他們的策略是利用新穎的編譯技術(shù)和他們稱之為“簡化操作集計算”(ROSC)的新設(shè)計理念來換取靈活性。

Series4 NNA具有巨大的計算密度,用于運(yùn)行標(biāo)準(zhǔn)層,如卷積層、池化層、激活層和完全連接的圖層,這些層占據(jù)了神經(jīng)網(wǎng)絡(luò)中大部分計算需求。從本質(zhì)上講,它具有冗余的計算能力。簡單地說,ROSC 就是從這個簡化的“操作集”中重新配置和重組操作,以構(gòu)建各種各樣的其他操作:乍一看,這些基礎(chǔ)操作似乎很難實現(xiàn)。這種重新分配任務(wù)通常會導(dǎo)致較低的利用率,因為硬件模塊并未用于其主要目的;但是,由于Series4 NNA具有如此多的原始計算能力,即使利用率為1%,例如每秒 400 千兆次操作,在其上運(yùn)行復(fù)雜操作的速度通常仍遠(yuǎn)遠(yuǎn)快于在“片外”執(zhí)行復(fù)雜操作的速度,例如在CPU或者GPU上。以這種方式在設(shè)備上保持處理可節(jié)省寶貴的系統(tǒng)資源,包括 CPU/GPU 時間、功率和帶寬。復(fù)雜操作可以實施為多個硬件通道的較簡單操作計算圖。因此,Series4 NNA使用帶有張量分塊的新型片上存儲器系統(tǒng)來保持?jǐn)?shù)據(jù)本地化(有關(guān)此主題的詳細(xì)白皮書,請參看鏈接) - 這可以被用來以最小的系統(tǒng)開銷在多個硬件通道上運(yùn)行復(fù)雜的操作。

ROSC 概念背后的關(guān)鍵是,專用硬件模塊通??梢耘渲靡詧?zhí)行其他任務(wù)。即使由于這種重新分配任務(wù)而導(dǎo)致使用率下降,硬件的巨大計算能力也彌補(bǔ)了這一不足。這使得Series4 架構(gòu)師能夠吃上蛋糕——無需額外的硬件復(fù)雜性或面積,Series4可以在原始性能很重要的地方具備閃電般的速度,并且在必要時,具有足夠的靈活性來處理任意復(fù)雜的高級操作。

不要低估架構(gòu)!

Series4有五種主要可配置的計算硬件模塊類型,可稱為:

卷積引擎

池化單元

標(biāo)準(zhǔn)化單元

元素操作單元

激活單元

圖1:單個硬件模塊通??梢耘渲脼閳?zhí)行范圍非常廣泛的任務(wù)。這些可配置的硬件模塊每一個都比乍一看可能做的更多。例如,Series 4卷積引擎可以配置為執(zhí)行圖 1所示的操作(以及其他許多操作),而無需依賴于其他計算硬件模塊。使用幾個這樣的模塊的組合,可以實現(xiàn)更廣泛的操作范圍。事實上,Series4可以使用高級的圖形降低編譯器技術(shù)來配置,以覆蓋現(xiàn)代神經(jīng)網(wǎng)絡(luò)中遇到的幾乎所有操作。

標(biāo)簽可能具有誤導(dǎo)性。僅僅因為一個硬件模塊被標(biāo)記為“卷積引擎”或“池化模塊”并不意味著這是它所能做的全部——在正確的人手中,這些模塊可以做的遠(yuǎn)遠(yuǎn)超過他們在tin上所說的!下面給出了使用多個硬件模塊組合實施復(fù)雜操作的兩個示例。

Softmax

Softmax是神經(jīng)網(wǎng)絡(luò)中的一種常見操作,通常用于需要離散概率的場合。在某些情況下,它也用于使張量進(jìn)行歸一化,以便沿某個軸或多個軸的所有元素都在 [0,1]范圍內(nèi),且總和為1。在網(wǎng)絡(luò)中,Softmax通常只占計算的一小部分。例如,在大多數(shù) ImageNet 分類網(wǎng)絡(luò)中,Softmax占計算的最大比重不到 0.01%。為了與ROSC 避免將芯片面積浪費(fèi)為“暗硅”的策略保持一致,4系列 沒有專用的Softmax硬件;相反,它是在其他可用操作方面實現(xiàn)的。這使它成為我們?nèi)绾螒?yīng)用上述原則的一個最佳例子。從本質(zhì)上講,該策略是用一系列數(shù)學(xué)上相同但由硬件直接支持的操作構(gòu)成的操作(“計算子圖”)來替換Softmax。Softmax是一個復(fù)雜的操作,需要五個階段,如圖2所示。其中四個交叉通道最大化削減、指數(shù)、跨通道求和削減和除法——在Series4上也沒有專門的硬件!但是,我們可以在Series4上以創(chuàng)造性的方法運(yùn)行它們,如下所述。圖2:將Softmax分解為其組成部分。

一個1×1的卷積與權(quán)重張量和一個完全由1組成的過濾器可以用來實現(xiàn)跨通道的求和。

除法可以用一個張量與另一個張量的倒數(shù)相乘來實現(xiàn)。Series4的 LRN(本地響應(yīng)歸一化)模塊可以配置為計算倒數(shù)。

交叉通道最大值可以通過將信道轉(zhuǎn)換置到空間軸上并執(zhí)行一系列空間最大池化操作來實現(xiàn)。之后,它被轉(zhuǎn)置回通道軸上。

由于指數(shù)僅限于負(fù)值和零輸入值,激活 LUT 可以配置為指數(shù)衰減函數(shù)。

總之,這將產(chǎn)生一個替換子圖,其中包含大約10到15個操作(取決于輸入張量的大?。?,這些操作在幾個硬件過程中執(zhí)行。ROSC的見解是,這個圖比在CPU或協(xié)處理器上執(zhí)行更快、更簡單。避免了完全可編程和專用固定功能硬件的兩種極端情況,并且編譯過程中包含了最容易管理的復(fù)雜性。

此外,用于Softmax的操作替換可以重用為其他高級操作。一旦實現(xiàn)了一些這樣的高級操作,就很容易看到如何構(gòu)建一個可重用操作替換庫,從而使將來的操作更容易降到Series4。這就是ROSC如何引領(lǐng)未來。

三維卷積

卷積引擎和Series4中的相關(guān)數(shù)據(jù)輸入和輸出針對一維和二維卷積進(jìn)行了高度優(yōu)化——這非常有意義,因為在大多數(shù)CNN(卷積神經(jīng)網(wǎng)絡(luò))中,這些引擎占據(jù)了絕大多數(shù)計算量。

061e0f46-9ed7-11eb-8b86-12bb97331649.jpg

圖3:用二維卷積和元素求和實現(xiàn)的三維卷積。

但是,Series4硬件不支持三維和更高維度的卷積。三維卷積是復(fù)雜運(yùn)算的一個具體例子,可使用圖形降低技術(shù)將其降低到Series4。在這種情況下,該子圖是根據(jù)二維卷積和元素加法構(gòu)建的。無論編譯器在哪里“看到”原始置身事外中的三維卷積,在Series4上運(yùn)行的機(jī)器代碼生成前,編譯器都會用該子圖形的等效版本替換它。

圖3顯示了一個三維卷積的例子,在深度軸上,內(nèi)核大小為3,步長為2。卷積在深度軸上展開。相同顏色的卷積具有相同的權(quán)重。這種策略很容易擴(kuò)展到高維和其他三維操作,如三維池和三維反褶積。這種三維卷積的方法是一個很好的例子,說明了如何將軟件設(shè)計成與硬件的優(yōu)點(diǎn)相結(jié)合,從而擴(kuò)展其適用性。

結(jié)論

高性能的神經(jīng)網(wǎng)絡(luò)加速器很難設(shè)計,因為它們需要平衡兩個看似矛盾的目標(biāo):它們需要大量的并行性和計算密度,以便在幾分之一秒內(nèi)完成一個典型神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個操作;它們需要足夠的靈活性來處理這些問題現(xiàn)代神經(jīng)網(wǎng)絡(luò)中有數(shù)百種不同類型的操作,還有那些尚未被發(fā)明的操作!通常必須在高效、更固定的函數(shù)方法和效率較低但更通用的方法之間進(jìn)行折衷。Imagination公司的工程師們已經(jīng)開發(fā)出一種令人興奮的創(chuàng)新方法,它提供了兩全其美的效果。Series4不包含任何近似ALU的可編程性所需的東西,而是有幾個非常有效的硬件模塊,設(shè)計用于執(zhí)行特定的、通常發(fā)生的操作的計算。使用新的編譯技術(shù)可以實現(xiàn)完全的靈活性,通過這種技術(shù),可以從一組簡化的基本操作中構(gòu)建非常廣泛的操作。這種方法被稱為簡化運(yùn)算集計算(簡稱ROSC)。通過以這種方式協(xié)調(diào)硬件和軟件設(shè)計,Series4擁有經(jīng)得起未來考驗的、世界一流的性能和計算密度,同時又不犧牲靈活性。

原文標(biāo)題:靈活、面向未來、高性能推理的簡化操作集計算

文章出處:【微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:靈活、面向未來、高性能推理的簡化操作集計算

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    國產(chǎn)AI服務(wù)器核心工藝突破,高密度貼片良率創(chuàng)新高

    AI服務(wù)器貼片打樣 是高性能計算硬件研發(fā)的關(guān)鍵前哨。作為承載AI訓(xùn)練與推理任務(wù)的硬件核心,AI服務(wù)器主板需集成大量GPU、高帶寬內(nèi)存及高速互連模塊,其貼片打樣不僅考驗基礎(chǔ)SMT工藝精度,更涉及復(fù)雜
    的頭像 發(fā)表于 02-04 20:37 ?253次閱讀
    國產(chǎn)AI服務(wù)器核心工藝突破,高<b class='flag-5'>密度</b>貼片良率創(chuàng)新高

    密度光纖布線:未來的數(shù)據(jù)通信解決方案

    的空間,提供高速數(shù)據(jù)傳輸并加速企業(yè)的數(shù)字化進(jìn)程。 什么是高密度光纖布線? 高密度光纖布線旨在提供最大的容量和性能,特別是在空間有限的數(shù)據(jù)中心等環(huán)境中。與標(biāo)準(zhǔn)光纖布線相比,這些系統(tǒng)可容納更多的纖芯,從而允許在同
    的頭像 發(fā)表于 12-02 10:28 ?543次閱讀

    OBC功率密度目標(biāo)4kW/L,如何通過電容選型突破空間瓶頸?

    我們在設(shè)計 11kW、800V平臺OBC 時,為實現(xiàn) 4kW/L 的高功率密度目標(biāo),發(fā)現(xiàn) 傳統(tǒng)牛角電容體積過大 導(dǎo)致布局困難,請問 永銘LKD系列 是否有滿足 高耐壓 且 體積小 的解決方案?
    發(fā)表于 12-02 09:24

    輕量化與高性能兼得:探秘ULTEA?低密度特性在電子材料中的獨(dú)特優(yōu)勢

    主題:?挖掘低密度特性的工程價值正文:在航空航天、高端消費(fèi)電子、新能源汽車等領(lǐng)域,“輕量化”與“高性能”是同等重要的設(shè)計目標(biāo)。然而,傳統(tǒng)的高性能填充劑(如氧化鋁、氮化硼)往往密度較高,
    的頭像 發(fā)表于 11-28 17:05 ?464次閱讀
    輕量化與高<b class='flag-5'>性能</b>兼得:探秘ULTEA?低<b class='flag-5'>密度</b>特性在電子材料中的獨(dú)特優(yōu)勢

    您的產(chǎn)品經(jīng)得起“摔”的考驗嗎?——跌落試驗機(jī)全應(yīng)用

    在工業(yè)高質(zhì)量發(fā)展的背景下,跌落試驗機(jī)已成為企業(yè)提升產(chǎn)品可靠性、降低質(zhì)量風(fēng)險的關(guān)鍵裝備。北京沃華慧通測控技術(shù)有限公司憑借深厚的技術(shù)積累、定制化的解決方案與完善的服務(wù)體系,為各行業(yè)用戶提供 “精準(zhǔn)、穩(wěn)定、高效” 的跌落測試設(shè)備。
    的頭像 發(fā)表于 10-27 10:18 ?657次閱讀
    您的產(chǎn)品<b class='flag-5'>經(jīng)得起</b>“摔”的<b class='flag-5'>考驗</b>嗎?——跌落試驗機(jī)全應(yīng)用

    恩智浦MCX C系列MCU助力實現(xiàn)高效遷移

    考慮從8位微控制器升級到32位微控制器?本文以五大理由闡釋為何需要升級,并帶你了解恩智浦MCX C系列如何憑借優(yōu)異性能、豐富的外設(shè)與強(qiáng)大的工具,讓遷移過程變得輕松高效。經(jīng)濟(jì)實惠且可擴(kuò)展的解決方案,讓您的設(shè)計經(jīng)得起未來
    的頭像 發(fā)表于 09-22 16:40 ?4072次閱讀

    電極壓實密度對鋰離子電池性能的影響探究

    在鋰離子電池技術(shù)飛速發(fā)展的當(dāng)下,無論是驅(qū)動電動汽車的動力電池,還是為各類便攜設(shè)備提供能量的小型電池,其性能的提升始終是研究的重點(diǎn)。電極壓實密度作為影響電池性能的關(guān)鍵因素之一,正逐漸走進(jìn)大眾視野。它
    的頭像 發(fā)表于 08-05 17:50 ?2094次閱讀
    電極壓實<b class='flag-5'>密度</b>對鋰離子電池<b class='flag-5'>性能</b>的影響探究

    ESP32-P4—具備豐富IO連接、HMI和出色安全特性的高性能SoC

    ESP32-P4搭載雙核RISC-V處理器,擁有 AI指令擴(kuò)展、先進(jìn)的內(nèi)存子系統(tǒng),并集成高速外設(shè)。ESP32-P4專為高性能和高安全的應(yīng)用設(shè)計,充分滿足下一代嵌入式應(yīng)用對人機(jī)界面支持、
    發(fā)表于 06-30 11:01

    ESP32-P4—具備豐富IO連接、HMI和出色安全特性的高性能SoC

    ESP32-P4搭載雙核RISC-V處理器,擁有 AI指令擴(kuò)展、先進(jìn)的內(nèi)存子系統(tǒng),并集成高速外設(shè)。ESP32-P4專為高性能和高安全的應(yīng)用設(shè)計,充分滿足下一代嵌入式應(yīng)用對人機(jī)界面支持、
    的頭像 發(fā)表于 06-26 09:59 ?2217次閱讀
    ESP32-P<b class='flag-5'>4</b>—具備豐富IO連接、HMI和出色安全特性的高<b class='flag-5'>性能</b>SoC

    最受歡迎的單板計算機(jī) x 最流行的移動操作系統(tǒng)

    歡迎的單板計算機(jī)之一。你可能已經(jīng)擁有一臺了,不是嗎?Android是世界上最流行的操作系統(tǒng),擁有各種各樣的應(yīng)用程序可供選擇。這種流行度,再加上樹莓派日益增強(qiáng)的性能,為在樹莓派上
    的頭像 發(fā)表于 06-18 17:20 ?879次閱讀
    最受歡迎的單板<b class='flag-5'>計算</b>機(jī) x 最流行的移動操作系統(tǒng)

    密度配線架和中密度的區(qū)別

    密度配線架與中密度配線架的核心區(qū)別體現(xiàn)在端口密度、空間利用率、應(yīng)用場景適配性、成本結(jié)構(gòu)及擴(kuò)展能力等方面,以下為具體分析: 一、端口密度與空間利用率 高
    的頭像 發(fā)表于 06-13 10:18 ?988次閱讀

    性能計算面臨的芯片挑戰(zhàn)

    性能計算(簡稱HPC)聽起來像是科學(xué)家在秘密實驗室里才會用到的東西,但它實際上是當(dāng)今世界上最重要的技術(shù)之一。從預(yù)測天氣到研發(fā)新藥,甚至訓(xùn)練人工智能,高性能計算系統(tǒng)都能幫助解決普通
    的頭像 發(fā)表于 05-27 11:08 ?1199次閱讀
    高<b class='flag-5'>性能</b><b class='flag-5'>計算</b>面臨的芯片挑戰(zhàn)

    Vicor 高密度模塊電源為邊緣計算帶來成本效益

    邊緣計算對于充分發(fā)揮人工智能 (AI)、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng) (IoT) 的全部潛能至關(guān)重要。供電和供電效率對于下一代邊緣計算機(jī)系統(tǒng)優(yōu)化性能非常關(guān)鍵。 隨著邊緣計算機(jī)數(shù)據(jù)處理的增加,該行業(yè)
    發(fā)表于 05-16 13:34 ?972次閱讀

    Imagination 宣布推出 E-Series GPU:開啟Edge AI 與圖形處理新時代

    E-Series 帶來跨越式性能提升,使 GPU 成為邊緣設(shè)備圖形與 AI 的核心加速引擎
    的頭像 發(fā)表于 05-09 16:16 ?744次閱讀

    Imagination?宣布推出?E-Series GPU:開啟Edge AI?與圖形處理新時代

    E-Series帶來跨越式性能提升,使GPU成為邊緣設(shè)備圖形與AI的核心加速引擎2025年5月8日——ImaginationTechnologies推出
    的頭像 發(fā)表于 05-08 08:02 ?1051次閱讀
    Imagination?宣布推出?E-<b class='flag-5'>Series</b> GPU:開啟Edge AI?與圖形處理新時代