91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Tenstorrent推出AI芯片Grayskull,兼顧高效能和高擴展性的創(chuàng)新架構(gòu)

牽手一起夢 ? 來源:DesignNews ? 作者:佚名 ? 2020-05-15 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5月14日消息,長期神秘的加拿大AI芯片初創(chuàng)企業(yè)Tenstorrent終于在今年有了新動向,4月7日,Tenstorrent發(fā)布其首款AI芯片Grayskull,算力最高可達368TOPS,相當于是高通2019年12月發(fā)布的旗艦手機SoC驍龍865算力的24倍。

相較市面上現(xiàn)有AI芯片產(chǎn)品,Grayskull不僅能兼顧高算力和低能耗,還具備高度可擴展的特點,可擴展到10萬個節(jié)點,支持從小型嵌入式設備到大型數(shù)據(jù)中心的AI推理和訓練任務。

一、兼顧高效能和高擴展性的創(chuàng)新架構(gòu)

Tenstorrent在2016年創(chuàng)立,總部位于加拿大多倫多市。在創(chuàng)辦Tenstorrent之前,其創(chuàng)始人兼CEO Ljubisa Bajic曾在NVIDIA芯片制造部門擔任高級架構(gòu)師,還曾在AMD擔任IC設計師和架構(gòu)師。

Bajic不認為像NVIDIA這樣的芯片公司會很快消失,但是該公司遲早會研發(fā)不是GPU的AI芯片產(chǎn)品。

Bajic總結(jié),當今對人工神經(jīng)網(wǎng)絡的研究主要集中于兩個陣營:一是傾向于在CPU、GPU等硬件上進行密集的矩陣計算,當前已大規(guī)模落地;二是對脈沖神經(jīng)網(wǎng)絡(SNN,Spiking neural network)的研究,目前尚處研究階段,還未實現(xiàn)廣泛應用。

密集矩陣算法能夠提高芯片密集計算能力,但是能耗較高,常通過以太網(wǎng)擴展到其他機器進行通信

SNN通過電活動的尖峰來傳遞信息,運作方式更接近自然神經(jīng)元。每次根據(jù)神經(jīng)網(wǎng)絡的行為,只有一定比例的神經(jīng)元會被激活,這致使網(wǎng)絡運行時能耗較低、條件執(zhí)行效率較高。

但SNN無法保證硬件效率。Bajic解釋,訓練SNN時,設計人員試圖用微分方程來直接描述自然神經(jīng)元的運作過程,然后盡可能在硬件上實現(xiàn)這些運作方式。“對于工程師來說,這個過程基本上就是把許多標量處理器核心連接到標量網(wǎng)絡上?!盉ajic說。

據(jù)Bajic介紹,Tenstorrent希望能夠設計出兼顧硬件效率、條件執(zhí)行效率、存儲效率和高度可擴展性(超過10萬個芯片)的產(chǎn)品。

二、動態(tài)消除不必要計算,大幅節(jié)省功耗和運算時間

如何才能兼顧上述特性呢?研究人員設計了一個能實現(xiàn)細粒度條件執(zhí)行、動態(tài)稀疏處理的完全可編程體系結(jié)構(gòu),可將較大數(shù)據(jù)組的復雜計算任務分解成多個較小數(shù)據(jù)組的計算,由芯片上的各個內(nèi)核進行獨立的處理。為了避免性能損失,Tenstorrent在這些數(shù)據(jù)組上啟動了控制流。

“在運行較小矩陣時,我們可以加上‘if’語句來判別是否運行它們,如果要運行它們,還可以決定是用較低精度、全精度或是兩者之間的其他精度?!盉ajic說。通過動態(tài)消除不必要的計算,該方法打破了計算/帶寬需求與模型大小之間的直接聯(lián)系,使得模型可以適應于已提出的確切輸入,并對模型進行訓練。

這種創(chuàng)新的設計方法一方面實現(xiàn)了非常出色的能效,但另一方面也帶來了關(guān)于軟件和可擴展性的挑戰(zhàn)。

首先需要與硬件適配的新軟件堆棧。Bajic稱:“問題在于,這個領(lǐng)域內(nèi)許多公司推出的軟件堆棧都假設有一套固定的維度和固定的工作要運行。因此,為了能夠在運行時啟用適配功能,需要硬件和軟件堆棧都能支持它?!?/p>

而Tenstorrent的設計將許多決策程序從編譯時轉(zhuǎn)到運行時,以實現(xiàn)正確大小的輸入?!爱斘覀冊谶\行時去除一些東西后,我們確切地知道了這些東西有多大了。所以要跟上硬件的能力,對軟件來說是相當大的挑戰(zhàn)?!盉ajic說道。

其次是可擴展性。創(chuàng)建可擴展到10萬個節(jié)點的體系架構(gòu),意味著在沒有共享內(nèi)存空間的情況下進行操作,緩存一致性會致使難以擴展到超過幾百個節(jié)點,這是Tentorrent想要避開的麻煩。

具體而言,Tenstorrent使用一系列Tensix內(nèi)核來通過網(wǎng)絡實現(xiàn)通信。Tensix內(nèi)核陣列與一個定制的雙2D環(huán)形片上網(wǎng)絡(NoC)集成在一起,這些網(wǎng)絡可以在芯片外擴展,從而創(chuàng)建包含成百上千個處理器的大型芯片到芯片集群,并且最小化了用于調(diào)度粗粒度數(shù)據(jù)傳輸?shù)能浖摀?/p>

每個Tensix內(nèi)核的算力約為3TOPS,包含1個高利用率的數(shù)據(jù)包處理器、1個可編程的單指令流多數(shù)據(jù)流(SIMD)、1個密集數(shù)學計算模塊、5個高效且靈活的單流(single-issue)的精簡指令集(RISC)。

這5個RISC內(nèi)核是相同的,但不一定同時運行相同的代碼。它們具有基本的算術(shù)和邏輯運算能力,并且可以管理流控制,還會爭奪共享計算引擎中更先進的硬件資源,在該硬件資源上執(zhí)行矩陣、卷積和矢量/ SIMD操作。 此外,每個Tensix內(nèi)核還具有1MB的本地靜態(tài)隨機存取存儲器(SRAM)。

假設一個神經(jīng)網(wǎng)絡層有兩個需要相乘的矩陣,該神經(jīng)網(wǎng)絡層的輸入被分解成“以太網(wǎng)大小的塊”,即子張量,然后將這些張量幀化為一組固定長度的數(shù)據(jù)包,分布在多個Tensix內(nèi)核中。

每個數(shù)據(jù)包都會進入內(nèi)核的SRAM緩沖區(qū)中,觸發(fā)軟件去找到數(shù)據(jù)包并運行一個硬件解包引擎,硬件解包引擎去除所有的數(shù)據(jù)包幀、解釋其含義、解壓縮數(shù)據(jù)包,在RISC內(nèi)核的指導下發(fā)送到計算引擎。再往下進行,這些數(shù)據(jù)包被重新打包并存儲在SRAM緩沖區(qū)中,以準備傳輸?shù)较乱粋€Tensix內(nèi)核中。

靈活的并行化和完整的可編程性可實現(xiàn)運行時適應和工作負載平衡,從而有助于節(jié)省功耗并縮短運行時間,從而顯著節(jié)省成本。

三、Grayskull芯片:一顆相當于24顆驍龍865

基于其架構(gòu)設計理念,Tenstorrent可打造能執(zhí)行推理和訓練任務的高性能芯片,可支持小至小型嵌入式設備、大至大型數(shù)據(jù)中心的工作負載部署。

Tenstorrent研發(fā)的首款推理芯片Grayskull包含120個Tensix內(nèi)核、120MB本地SRAM和8個通道的LPDDR4,支持高達16GB的外部DRAM和16通道的PCI-E Gen4。

在75W總線供電的PCIe卡上,Grayskull的算力最高可達到368TOPS。預計今年晚些時候,Tenstorrent將推出功耗為300W的訓練設備。

相比之下,高通2019年發(fā)布的驍龍865芯片算力為15TOPS。也就是說,一顆Grayskull芯片就能完成約24顆驍龍865芯片才能完成的運算量。

在條件執(zhí)行的情況下,使用BERT-Base的SQuAD 1.1數(shù)據(jù)集,Grayskull芯片可實現(xiàn)高達23345句/秒的性能,使其性能比當今的領(lǐng)先解決方案高出26倍。

結(jié)語:第二代Tensix核心芯片或于秋季發(fā)布

許多機構(gòu)和研究者都在推進AI芯片的設計、研發(fā)。AI芯片可以優(yōu)化許多領(lǐng)域的生產(chǎn)流程,比如,或可用于提升疾病追蹤模型、疫苗研發(fā)工具的效率,還可推動情感人工智能等新興領(lǐng)域的發(fā)展。

這些研究存在一個共同的問題——如何節(jié)約總擁有成本(TCO)。在Bajic看來,許多現(xiàn)有AI芯片方案非常耗電,而通過架構(gòu)創(chuàng)新,兼顧高性能和低功耗的AI芯片將推動AI在你的智能可穿戴設備上完成運算任務。

在推出Grayskull芯片的同時,Tenstorrent也在推進第二代Tensix核心芯片的研發(fā)。第二代Tensix核心芯片被稱為Wormhole,核心架構(gòu)和Grayskull相同,且使用很多以太網(wǎng)鏈接來進一步擴展系統(tǒng)規(guī)模,預計于2020年秋季發(fā)布。

責任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20279

    瀏覽量

    253005
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54076

    瀏覽量

    467025
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40160

    瀏覽量

    301776
  • Tenstorrent
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    282
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Nexthop AI推出顛覆性的行業(yè)領(lǐng)先橫向擴展與跨域擴展交換機,專為Hyperscalers及NeoClouds設計

    高效能AI網(wǎng)絡領(lǐng)域的領(lǐng)先先行者Nexthop AI今天為云與AI數(shù)據(jù)中心推出了一系列橫向擴展、跨
    的頭像 發(fā)表于 03-12 16:51 ?224次閱讀

    從 M0 到 M3丨笙泉32 位 MCU:高效能、安全性與多元應用兼具

    ? Cortex?-M0 / M0+ 與 M3 核心,并推出具備高效能與高安全性的32位MG32F/L系列MCU。相關(guān)產(chǎn)品在穩(wěn)定性、安全性與市場競爭力方面表現(xiàn)出色,可滿足各行業(yè)多元化應用需求。以下將介紹
    發(fā)表于 03-10 15:29

    高效能利器:LTC3454 電流 LED 驅(qū)動器深度剖析

    高效能利器:LTC3454 電流 LED 驅(qū)動器深度剖析 引言 在當今電子設備飛速發(fā)展的時代,LED 照明憑借其高效、節(jié)能、壽命長等諸多優(yōu)勢,廣泛應用于各類便攜式電子設備中,如手機、數(shù)碼相機等
    的頭像 發(fā)表于 02-03 13:35 ?248次閱讀

    中科曙光推出國產(chǎn)自研原生RDMA高速網(wǎng)絡scaleFabric

    AI算力集群正加速向萬卡、十萬卡級規(guī)模迭代,高速互連網(wǎng)絡作為算力高效釋放的“神經(jīng)樞紐”,其性能、擴展性與穩(wěn)定性直接決定集群整體效能。大規(guī)模集群組網(wǎng)需
    的頭像 發(fā)表于 01-21 13:41 ?1269次閱讀

    五大無人機高效能動力推進系統(tǒng)軟件已融合AI模型

    ? ? 無人機高效能動力推進系統(tǒng)五大核心方案及技術(shù)特色 ? ?無人機高效能動力推進系統(tǒng)技術(shù)成果豐碩,以下五大系統(tǒng)立足不同技術(shù)路徑與應用場景,構(gòu)建起覆蓋多元需求的高效能解決方案矩陣。 ? ?系統(tǒng)軟件
    的頭像 發(fā)表于 01-14 15:54 ?202次閱讀

    無人機高效能動力推進系統(tǒng):功能特點與平臺架構(gòu)解析

    無人機高效能動力推進系統(tǒng):功能特點與平臺架構(gòu)解析
    的頭像 發(fā)表于 01-14 15:27 ?259次閱讀
    無人機<b class='flag-5'>高效能</b>動力推進系統(tǒng):功能特點與平臺<b class='flag-5'>架構(gòu)</b>解析

    Genio 720與Genio 520安卓核心板_AI高效能核心板

    隨著人工智能技術(shù)的快速發(fā)展,邊緣生成式AI應用逐漸成為物聯(lián)網(wǎng)領(lǐng)域的新熱點。 Genio 720 和 Genio 520 安卓核心板,憑借高效能與先進架構(gòu),為邊緣智能提供了強大的技術(shù)支持。Genio
    的頭像 發(fā)表于 10-29 20:15 ?353次閱讀
    Genio 720與Genio 520安卓核心板_<b class='flag-5'>AI</b>的<b class='flag-5'>高效能</b>核心板

    如何評估電能質(zhì)量在線監(jiān)測裝置的擴展性?

    評估電能質(zhì)量在線監(jiān)測裝置的擴展性,需圍繞 “ 硬件可擴展、軟件可升級、協(xié)議可兼容、場景可適配 ” 四大核心維度展開,通過 “技術(shù)參數(shù)核查、廠商能力驗證、實際場景測試” 三層驗證,判斷裝置能否隨電網(wǎng)
    的頭像 發(fā)表于 10-22 16:35 ?621次閱讀

    電能質(zhì)量在線監(jiān)測裝置的兼容性和擴展性對其性能有何影響?

    電能質(zhì)量在線監(jiān)測裝置的兼容性和擴展性,是決定其 “能否融入現(xiàn)有系統(tǒng)、適應未來變化” 的核心屬性,直接影響裝置的 數(shù)據(jù)互通性、功能適配性、生命周期價值 ,進而間接作用于諧波源識別準確率、定位精度等核心
    的頭像 發(fā)表于 10-22 16:25 ?520次閱讀

    為何400G DR4成為高速互連領(lǐng)域的優(yōu)選方案?

    深入剖析400G DR4光模塊如何成為數(shù)據(jù)中心互連領(lǐng)域的標準之選,憑借其卓越的可擴展性、高效能及穩(wěn)定可靠的性能表現(xiàn)。
    的頭像 發(fā)表于 09-28 11:18 ?642次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集
    發(fā)表于 09-12 17:30

    市場上的工控機改如何選擇?接口與擴展性需求分析

    在邊緣計算時代,工控機的選擇需緊密圍繞實時性、可靠性、環(huán)境適應性三大工業(yè)核心需求,同時兼顧算力、接口與擴展性的平衡。以下是關(guān)鍵考量因素及選型策略: 一、算力需求分析:從場景出發(fā)分層選型 傳感器數(shù)據(jù)
    的頭像 發(fā)表于 08-06 16:52 ?778次閱讀
    市場上的工控機改如何選擇?接口與<b class='flag-5'>擴展性</b>需求分析

    SL4013 耐壓2.7V-25V輸入升壓芯片 替換MP3212 高效能便攜電源方案

    SL4013升壓型DC-DC轉(zhuǎn)換器:高效能便攜電源解決方案的創(chuàng)新突破?隨著便攜式電子設備對高效能、小型化電源需求的激增,SL4013升壓型DC-DC轉(zhuǎn)換器憑借其卓越性能成為行業(yè)焦點。本文將深度解析
    發(fā)表于 07-25 14:45

    SQ76115BADE同步降壓DC/DC轉(zhuǎn)換器:高效能、寬輸入電壓解決方案

    通信設備提供穩(wěn)定電源。POLs(負載點電源),滿足高密度電源轉(zhuǎn)換需求。服務器,為數(shù)據(jù)中心提供高效、可靠的電源解決方案。SQ76115BADE同步降壓DC/DC轉(zhuǎn)換器以其高效能、寬輸入電壓范圍、穩(wěn)定性以及緊湊的封裝設計,成為眾多
    發(fā)表于 06-26 09:03

    ip6832原理圖文檔:無線充電技術(shù)的高效能革命

    英集芯IP6832芯片實現(xiàn)高效能無線充電,集成全橋同步整流電路,提供精準調(diào)控的直流電輸出。芯片將32位MCU與10KB MTP存儲器集成,支持在線固件升級??臻g魔術(shù)師封裝哲學,優(yōu)化尺寸與散熱,實現(xiàn)
    的頭像 發(fā)表于 05-29 08:55 ?978次閱讀
    ip6832原理圖文檔:無線充電技術(shù)的<b class='flag-5'>高效能</b>革命