91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文讀懂,可重構(gòu)芯片為何是AI的完美搭檔

穎脈Imgtec ? 2025-03-31 12:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:半導體行業(yè)觀察


在當今數(shù)字化時代,人工智能AI)無疑是最為耀眼的技術(shù)領(lǐng)域之一。從早期簡單的機器學習算法,到如今復(fù)雜的深度學習和 Transformer 模型,AI 算法正以前所未有的速度快速發(fā)展。這種快速演進使得 AI 在各個領(lǐng)域的應(yīng)用不斷拓展,從邊緣端的高能效場景,如智能安防攝像頭、智能家居設(shè)備,到云端的大算力場景,如數(shù)據(jù)中心的智能分析、智能語音交互系統(tǒng)等,AI 正逐步滲透到人們生活和工作的方方面面。

在邊緣端,設(shè)備對能耗限制嚴格,需在有限電量下完成復(fù)雜任務(wù),像實時圖像識別、簡單語音指令處理等。而在云端,面對海量數(shù)據(jù)和復(fù)雜計算需求,如大規(guī)模圖像數(shù)據(jù)集處理、復(fù)雜自然語言處理任務(wù)等,需要強大計算能力支撐。無論哪種場景,AI 芯片都至關(guān)重要,其性能直接決定 AI 應(yīng)用效果。然而,隨著 AI 算法不斷革新,傳統(tǒng)固定架構(gòu)芯片逐漸暴露出諸多局限性,難以滿足 AI 算法日益增長的多樣化需求,無法充分發(fā)揮硬件性能優(yōu)勢。

現(xiàn)代神經(jīng)網(wǎng)絡(luò)模型作為AI算法的核心,具有一系列復(fù)雜多樣的特征,這些特征對芯片的設(shè)計和性能產(chǎn)生了深遠的影響。

神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)復(fù)雜且不斷演變。早期神經(jīng)網(wǎng)絡(luò)主要由卷積層和全連接層構(gòu)成,結(jié)構(gòu)簡單,功能單一。但隨著技術(shù)發(fā)展,為提升網(wǎng)絡(luò)性能和處理復(fù)雜任務(wù)的能力,諸如 ResNet 的殘差連接結(jié)構(gòu)、注意力機制等復(fù)雜拓撲不斷涌現(xiàn)。ResNet 的殘差連接解決了梯度消失問題,使網(wǎng)絡(luò)可構(gòu)建得更深,學習更復(fù)雜特征;注意力機制通過動態(tài)生成矩陣提取全局信息相關(guān)性,帶來不規(guī)則拓撲結(jié)構(gòu),能更聚焦關(guān)鍵信息。例如在 2023 年特斯拉 AI Day 展示的網(wǎng)絡(luò)中,包含更多類型節(jié)點和更復(fù)雜連接,旨在模擬人類大腦神經(jīng)連接,實現(xiàn)更高級智能處理能力。不同網(wǎng)絡(luò)拓撲結(jié)構(gòu)決定數(shù)據(jù)在網(wǎng)絡(luò)中的流動和處理方式,對芯片的計算資源分配和數(shù)據(jù)傳輸路徑提出多樣化需求。

6ba4d8c8-0de5-11f0-9434-92fbcf53809c.png圖1. AI算法呈現(xiàn)出復(fù)雜演變的特點

神經(jīng)網(wǎng)絡(luò)模型存在多維度的稀疏性,涵蓋輸入、權(quán)重和輸出。為模擬大腦中非活躍神經(jīng)元,提高計算效率,稀疏性在神經(jīng)網(wǎng)絡(luò)研究中備受關(guān)注。實際計算中,稀疏(0 值)操作數(shù)不影響計算結(jié)果,跳過無效計算可減少整體計算量和內(nèi)存訪問需求。早期對稀疏性的研究集中在基于剪枝的一維權(quán)重稀疏性,如今已發(fā)展到利用輸入、權(quán)重和輸出的三維稀疏性。例如,在一些模型中,通過檢測輸入數(shù)據(jù)中的 0 值元素,直接跳過相關(guān)計算,避免不必要的計算資源浪費。

6bdf0aca-0de5-11f0-9434-92fbcf53809c.png

圖2. 神經(jīng)網(wǎng)絡(luò)模型精度不斷變化

神經(jīng)網(wǎng)絡(luò)模型在不同層對數(shù)據(jù)精度要求差異較大。推理階段,模型最初常被量化為統(tǒng)一精度,如 INT8,這種方式雖簡單,但在某些情況下無法充分發(fā)揮模型性能。后來發(fā)展為每層量化,根據(jù)不同層需求調(diào)整數(shù)據(jù)精度,提高推理效率。近期,甚至出現(xiàn)元素級混合精度應(yīng)用,進一步優(yōu)化計算資源利用。訓練階段,早期常用的 FP32 和 FP16 雖能保證較高計算精度,但會帶來較高內(nèi)存和功耗開銷。為降低訓練成本,有人提出使用 FP8,但因其數(shù)據(jù)表示能力有限,會導致訓練精度損失。因此,混合精度訓練(如 FP16 和 FP8 混合)成為平衡訓練精度和能效的有效解決方案。

這些復(fù)雜的模型特征給芯片設(shè)計帶來諸多嚴峻挑戰(zhàn)。不同網(wǎng)絡(luò)拓撲結(jié)構(gòu)導致數(shù)據(jù)重用模式和數(shù)據(jù)訪問時間差異顯著。數(shù)據(jù)訪問,尤其是對 DRAM 的訪問,相較于計算會帶來顯著時間和功耗開銷。在高性能 AI 芯片設(shè)計中,減少內(nèi)存訪問成本至關(guān)重要,這就要求芯片具備靈活的數(shù)據(jù)流支持能力,以適應(yīng)不同數(shù)據(jù)重用模式,降低數(shù)據(jù)訪問量。不同類型的稀疏性特點不同,增加了芯片設(shè)計難度。輸入和權(quán)重稀疏性需逐元素計算跳過,輸出稀疏性導致逐向量計算跳過。AI 芯片要充分利用這些稀疏性消除冗余計算,必須具備靈活處理不同稀疏性的能力。不同應(yīng)用對數(shù)據(jù)位寬要求不同,AI 芯片需處理多種數(shù)據(jù)精度,這對處理器的計算單元提出很高要求,需要一個高效的 MAC 單元,既能滿足不同精度計算需求,又能在功耗和面積方面進行優(yōu)化。

6c251a4c-0de5-11f0-9434-92fbcf53809c.png

圖3. 硬件重構(gòu)優(yōu)于軟件編程

為應(yīng)對這些挑戰(zhàn),硬件重構(gòu)成為關(guān)鍵技術(shù),相較于軟件編程具有明顯優(yōu)勢。軟件編程在處理不同拓撲結(jié)構(gòu)時具有一定靈活性,通過插入分支指令處理不同節(jié)點,但在處理元素級稀疏性和多種精度時存在局限。軟件編程無法充分利用稀疏性優(yōu)化計算,對于不同精度計算也難以靈活切換,無法滿足 AI 芯片對靈活性的全面要求。例如,在處理大規(guī)模稀疏矩陣計算時,軟件編程可能耗費大量時間和資源處理 0 值元素,而硬件重構(gòu)能夠全面適應(yīng)神經(jīng)網(wǎng)絡(luò)的各種結(jié)構(gòu)、稀疏模式和計算精度。它可根據(jù)不同神經(jīng)網(wǎng)絡(luò)模型和任務(wù)需求,在硬件層面快速調(diào)整,實現(xiàn)資源高效利用。處理稀疏性時,硬件重構(gòu)可通過專門電路設(shè)計,直接對稀疏數(shù)據(jù)進行處理,避免無效計算,提高計算效率。例如,通過設(shè)計特定的稀疏數(shù)據(jù)處理單元,可快速檢測和跳過 0 值操作數(shù),減少計算資源浪費。應(yīng)對多種數(shù)據(jù)精度時,硬件重構(gòu)能靈活切換計算單元精度模式,滿足不同層計算需求。例如,在同一芯片上,可根據(jù)不同層需求,動態(tài)調(diào)整計算單元精度,從低精度的 INT4 到高精度的 FP16,實現(xiàn)資源優(yōu)化配置。

硬件重構(gòu)主要在芯片級、處理單元陣列(PEA)級和處理單元(PE)級三個層次進行。芯片級重構(gòu)旨在處理輸入、權(quán)重和輸出的稀疏性,提高硬件利用率,可以通過 BENES 網(wǎng)絡(luò)實現(xiàn)。BENES 網(wǎng)絡(luò)由雙向開關(guān)單元組成,每個開關(guān)有旁路和交叉兩種模式。處理輸入和權(quán)重稀疏性時,根據(jù)操作數(shù)是否為零,配置 BENES 網(wǎng)絡(luò)為對稱或不對稱結(jié)構(gòu),將非零操作數(shù)路由到 PE 進行計算,并在計算后恢復(fù)結(jié)果的稀疏位置。對于輸出稀疏性,傳統(tǒng)順序計算存在硬件利用率低和數(shù)據(jù)重復(fù)訪問問題,而亂序計算通過 BENES 網(wǎng)絡(luò)優(yōu)化計算順序,減少向量內(nèi)存訪問,提高硬件資源利用率。例如,在處理大規(guī)模稀疏矩陣乘法時,通過 BENES 網(wǎng)絡(luò)的亂序計算,可優(yōu)化原本需多次訪問內(nèi)存的數(shù)據(jù),減少內(nèi)存訪問次數(shù),提高計算效率。數(shù)據(jù)顯示:清微智能從邊緣端 TX5至云端TX8系列可重構(gòu)芯片 ,硬件利用率均可提升 50% 以上。

PEA 級重構(gòu)分為整體重構(gòu)和交錯重構(gòu)。整體重構(gòu)中,整個 PE 陣列以特定數(shù)據(jù)流運行,適用于不同神經(jīng)網(wǎng)絡(luò)順序執(zhí)行的場景;交錯重構(gòu)允許多個數(shù)據(jù)流在單個 PE 陣列上同時運行,適用于需同時計算多個神經(jīng)網(wǎng)絡(luò)的場景。其目的是通過改變數(shù)據(jù)流,根據(jù)不同神經(jīng)網(wǎng)絡(luò)模型的張量大小和數(shù)據(jù)重用模式,選擇固定某一張量,讓其他張量流動,從而最小化數(shù)據(jù)訪問。通過調(diào)整數(shù)據(jù)流向和計算順序,提高數(shù)據(jù)重用率,減少數(shù)據(jù)在內(nèi)存和計算單元之間的傳輸次數(shù),進而降低功耗和提高計算效率。與 GPU 相比,GPU 硬件利用率通常僅達 50%,而可重構(gòu)芯片通過靈活的陣列級重構(gòu),能達到 80% 以上的硬件利用率。例如,在處理多個不同類型的神經(jīng)網(wǎng)絡(luò)任務(wù)時,可重構(gòu)芯片的交錯重構(gòu)能力可同時處理不同任務(wù)的數(shù)據(jù)流,充分利用硬件資源,避免資源閑置。清微智能的 TX8 系列可重構(gòu)大算力芯片通過這種數(shù)據(jù)流計算范式使中間數(shù)據(jù)直接在計算單元之間傳遞,避免大量重復(fù)訪存,計算性能和能效水平顯著提升。

PE 級重構(gòu)的目標是支持多種數(shù)據(jù)精度,常見技術(shù)包括位串行、位融合、浮點融合和部分積重構(gòu)。位串行從最高有效位(MSB)到最低有效位(LSB)逐位計算,通過配置控制位決定計算周期,適用于超低功耗應(yīng)用,但吞吐量有限。位融合由多個并行的位磚單元組成,通過空間重組實現(xiàn)靈活的位寬配置,可支持不同精度計算,能顯著提升計算速度,但帶寬利用率較低。在訓練中分離特征圖為 FP16 和 FP8 組,可提高訓練能效,但存在硬件資源浪費問題。浮點融合用于混合精度浮點訓練,通過共享乘法器、對齊器、加法器和歸一化邏輯實現(xiàn)不同精度計算,從而顯著提高硬件資源利用率。部分積重構(gòu)支持混合整數(shù)和浮點計算,通過不同的部分積計算單元配置實現(xiàn)不同精度計算,硬件利用率較高,但功耗相對較大。例如,在對功耗要求極高的邊緣設(shè)備中,位串行技術(shù)可充分發(fā)揮其超低功耗優(yōu)勢;在對計算速度要求較高的云端應(yīng)用中,位融合技術(shù)可顯著提升計算速度。

6c484792-0de5-11f0-9434-92fbcf53809c.png

圖4. 可重構(gòu)芯片可實現(xiàn)多層次硬件重構(gòu)

可重構(gòu)芯片憑借芯片級、陣列級和 PE 級三級重構(gòu)能力,在保持編程靈活性的情況下,通過對硬件資源的精細化重構(gòu)調(diào)度和高效利用,實現(xiàn)更高性能和更高能效的 AI 芯片設(shè)計。在芯片級,由于 AI 處理的數(shù)據(jù)存在稀疏性,可重構(gòu)芯片的芯片級重構(gòu)能力能跳過無效的 0 值計算,減少內(nèi)存訪問次數(shù),提高硬件使用效率,更好發(fā)揮硬件性能并提高計算能效。在陣列級,可重構(gòu)芯片能利用其陣列級重構(gòu)能力,實現(xiàn)數(shù)據(jù)流計算范式,減少中間數(shù)據(jù)在存儲器之間的反復(fù)搬運,降低訪存能耗,解決 “存儲墻” 問題,同時提高硬件資源利用效率。在 PE 級,可重構(gòu)芯片利用其 PE 級多精度配置、定浮點融合和資源共享等重構(gòu)能力,精細控制和調(diào)度底層計算資源,顯著提高資源利用率,從而提高芯片面積利用率。

隨著 AI 技術(shù)的不斷發(fā)展,可重構(gòu)芯片的應(yīng)用前景將更加廣闊。它有望為 AI 的持續(xù)創(chuàng)新提供強大硬件支持,推動人工智能技術(shù)邁向新高度。

在未來,隨著 AI 算法進一步發(fā)展和應(yīng)用場景不斷拓展,可重構(gòu)芯片將在更多領(lǐng)域發(fā)揮重要作用。國內(nèi)規(guī)模最大的可重構(gòu)芯片廠商清微智能,目前已量產(chǎn)TX5和TX8兩大系列十余款芯片,覆蓋云邊端應(yīng)用場景,廣泛應(yīng)用至智能安防、智能機器人、智算中心,大模型市場,實現(xiàn)可重構(gòu)芯片從0到1的探索實踐。脫胎于斯坦福大學頂尖科研團隊的 SambaNova Systems,在2023年就成為AI 芯片估值最高的獨角獸標桿。

參考鏈接

1.Shouyi Yin. Reconfigurable Machine Learning Processor: Fundamental Concepts, Applications, and Future Trends.ASSCC 2023 Tutorial.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54018

    瀏覽量

    466339
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39846

    瀏覽量

    301505
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50103

    瀏覽量

    265528
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    讀懂:黃仁勛重點布局的“物理AI”(Physic AI

    什么?它在技術(shù)原理上和我們熟悉的大模型、傳統(tǒng)機器人,究竟有什么根本不同?物理AI并不是“又個機器人概念”很多人第次聽到“物理AI”,第
    的頭像 發(fā)表于 01-20 15:50 ?1568次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>:黃仁勛重點布局的“物理<b class='flag-5'>AI</b>”(Physic <b class='flag-5'>AI</b>)

    什么是TPU?萬協(xié)通帶你看懂AI算力的“變形金剛”

    ”——TPU(Tensor Processing Unit)。 今天,作為國產(chǎn)重構(gòu)TPU芯片的先行者,萬協(xié)通將帶你剝開晦澀的技術(shù)外殼,看懂這塊決定AI未來的核心硬件,以及中國
    的頭像 發(fā)表于 01-13 13:22 ?279次閱讀
    什么是TPU?萬協(xié)通帶你看懂<b class='flag-5'>AI</b>算力的“變形金剛”

    讀懂VCSEL芯片為何與眾不同

    VCSEL芯片是如何誕生的?是德科技帶你走進慧芯激光產(chǎn)業(yè)園探究竟!
    的頭像 發(fā)表于 01-09 14:19 ?577次閱讀

    EDA行業(yè)的AI智能體來了!正重構(gòu)芯片設(shè)計

    電子發(fā)燒友網(wǎng)報道(/黃晶晶)當前,國內(nèi)芯片設(shè)計企業(yè)面臨個突出矛盾在于越使用先進EDA工具,越需要投入更多工程師,這與當前企業(yè)控制成本的訴求嚴重相悖。而通過“電子設(shè)計自主化”,EDA智能體讓客戶
    的頭像 發(fā)表于 12-03 17:27 ?9052次閱讀
    EDA行業(yè)的<b class='flag-5'>AI</b>智能體來了!正<b class='flag-5'>重構(gòu)</b><b class='flag-5'>芯片</b>設(shè)計

    AES和SM4算法的重構(gòu)分析

    、AES和SM4算法特點分析 基于前面幾篇分享,我們對AES和SM4的算法流程有了較為清晰的認識,接下來對AES和SM4算法的共同點進行分析,得出二者的重構(gòu)設(shè)計思路。 首先,這里把AES
    發(fā)表于 10-23 07:26

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    芯片 ③數(shù)?;旌想娐返耐黄?④重構(gòu)性架構(gòu) ⑤情感計算單元 ⑥決策與行動單元 ⑦多種神經(jīng)網(wǎng)絡(luò)與多種學習算法 2)AGI芯片的新創(chuàng)公司 3、AGI芯片
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    ②Transformer引擎③NVLink Switch系統(tǒng)④機密計算⑤HBM FPGA: 架構(gòu)的主要特點:重構(gòu)邏輯和路由,可以快速實現(xiàn)各種不同形式的神經(jīng)網(wǎng)絡(luò)加速。 ASIC: 介紹了幾種ASIC AI
    發(fā)表于 09-12 16:07

    讀懂 PWM控制背光亮度原理

    關(guān)于PWM控制背光亮度原理的詳細介紹 讀懂PWM調(diào)光:為何你的屏幕亮度可隨心而變? 你是否曾好奇,手機或電腦屏幕的亮度是如何從最暗無級調(diào)整到最亮的?這背后的魔法,主要歸功于
    發(fā)表于 09-03 08:48

    AI 芯片浪潮下,職場晉升新契機?

    職場、渴望在專業(yè)領(lǐng)域更進步的人來說,AI 芯片與職稱評審之間,實則有著千絲萬縷的聯(lián)系,為職業(yè)晉升開辟了新的路徑。 AI 芯片領(lǐng)域細分與職稱
    發(fā)表于 08-19 08:58

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+自擬標題 注意事項 1、活動期間如有作弊、灌水等違反電子發(fā)燒友論壇規(guī)則的行為經(jīng)發(fā)現(xiàn)將立即取消獲獎資格 2、活動結(jié)束后獲獎名單將在論壇公示請活動參與者
    發(fā)表于 07-28 13:54

    AI智能時代重構(gòu)PCB價值的核心邏輯

    AI智能時代的PCB價值重構(gòu)研究 、引言 ()研究背景與意義 在AI技術(shù)驅(qū)動下,全球電子信息產(chǎn)業(yè)加速變革,PCB(印制電路板)作為電子系
    的頭像 發(fā)表于 07-16 18:55 ?11.9w次閱讀

    清微智能官宣:國產(chǎn)重構(gòu)芯片全球出貨量突破2000萬顆

    芯片累計出貨量已突破2000萬顆,成為全球銷量領(lǐng)先的重構(gòu)芯片廠商。 2000萬顆出貨量 堅持高階國產(chǎn)替代,從清華實驗室到2000萬顆的產(chǎn)業(yè)突圍 時下,當
    的頭像 發(fā)表于 06-12 17:15 ?1595次閱讀
    清微智能官宣:國產(chǎn)<b class='flag-5'>可</b><b class='flag-5'>重構(gòu)</b><b class='flag-5'>芯片</b>全球出貨量突破2000萬顆

    微:AI存力芯片,重構(gòu)計算范式

    電子發(fā)燒友網(wǎng)報道(/黃晶晶)今年以來,AI手機、AI PC、DeepSeek 訓推體機已經(jīng)成為AI端側(cè)落地的熱門終端產(chǎn)品。與此同時,新能
    的頭像 發(fā)表于 04-21 16:22 ?2132次閱讀
    得<b class='flag-5'>一</b>微:<b class='flag-5'>AI</b>存力<b class='flag-5'>芯片</b>,<b class='flag-5'>重構(gòu)</b>計算范式

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結(jié)合**

    【技術(shù)干貨】nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結(jié)合 近期收到不少伙伴咨詢nRF54系列芯片的應(yīng)用與技術(shù)細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF
    發(fā)表于 04-01 00:00

    2.5D封裝為何成為AI芯片的“寵兒”?

    2.5D封裝領(lǐng)域,英特爾的EMIB和臺積電的CoWoS是兩大明星技術(shù)。眾所周知,臺積電的CoWoS產(chǎn)能緊缺嚴重制約了AI芯片的發(fā)展,這正是英特爾EMIB技術(shù)可以彌補的地方。本文我們將以英特爾EMIB為例,深入解析2.5D封裝之所以能成為
    的頭像 發(fā)表于 03-27 18:12 ?898次閱讀
    2.5D封裝<b class='flag-5'>為何</b>成為<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>的“寵兒”?