亚州第一播放器,午夜亚洲福利在线老司机

本文轉(zhuǎn)自：TechSugar

編譯自Electronic Design

人工智能浪潮已然席卷全球，將人工智能加速器和處理器整合到各類應(yīng)用中也變得愈發(fā)普遍。然而，圍繞它們是什么、如何運作、能如何增強應(yīng)用，以及哪些是真實情況而哪些只是炒作，仍存在諸多誤解。

GPU是最佳的人工智能處理器

盡管GPU在人工智能的實現(xiàn)過程中發(fā)揮了關(guān)鍵作用，而且如今它們的應(yīng)用也極為廣泛，但將其推崇為“最佳”人工智能處理器，未免過于簡化了人工智能硬件不斷演變的格局。

GPU非常適合用于大規(guī)模模型訓(xùn)練，在這類場景中，需要巨大的吞吐量——包括大容量內(nèi)存和高精度——來精準處理海量數(shù)據(jù)集。而像它具有的處理時間長（可能長達數(shù)月）、處理效率低（通常僅為個位數(shù)）、能耗大（對冷卻構(gòu)成限制），以及延遲較高等缺點，則成了次要問題。

隨著該領(lǐng)域的不斷成熟，“最佳”的定義越來越取決于應(yīng)用的使用模式和需求。GPU曾經(jīng)是合適的答案，但如今已不再是唯一的答案。

人工智能處理器在訓(xùn)練和推理方面表現(xiàn)同樣出色

人們通常認為，任何為人工智能優(yōu)化的處理器都能無縫兼顧訓(xùn)練和推理工作。但實際情況是，訓(xùn)練和推理在計算、效率、內(nèi)存、延遲、功耗和精度方面有著截然不同的要求。

一款處理器在某一方面表現(xiàn)出色，并不意味著它在另一方面也能有優(yōu)異表現(xiàn)。這兩個部署階段各自有著不同的計算目標和硬件需求。訓(xùn)練注重的是以高精度和大規(guī)模進行學(xué)習(xí)；而推理則強調(diào)速度、效率和響應(yīng)能力。

若認為一款芯片能在這兩方面都表現(xiàn)出色，會導(dǎo)致性能不佳、效率低下，還會錯失優(yōu)化機會。最佳的系統(tǒng)會將兩者區(qū)分開來，并分別進行優(yōu)化。

人工智能處理器僅在數(shù)據(jù)中心有用武之地

在人工智能部署的早期階段，由于模型規(guī)模需要巨大的吞吐量，只有云數(shù)據(jù)中心具備訓(xùn)練和運行深度學(xué)習(xí)模型的計算基礎(chǔ)設(shè)施。

而在如今的格局下，隨著推理的普及，人工智能處理器正越來越多地部署在數(shù)據(jù)中心之外的環(huán)境中，從邊緣設(shè)備、移動電話到汽車和工業(yè)系統(tǒng)等，都能看到它們的身影。

如今，人工智能處理器已集成于我們身邊的各種設(shè)備中，在最需要的地方實現(xiàn)更智能的交互、自主決策和實時處理。從云端到邊緣，人工智能無處不在，因為這些地方需要智能。

所有人工智能處理器都可用于通用應(yīng)用

人工智能處理器是專為特定的人工智能任務(wù)而設(shè)計的，比如優(yōu)化矩陣/張量運算等。相比之下，通用計算，如運行網(wǎng)頁瀏覽器、管理操作系統(tǒng)或執(zhí)行文件壓縮等，需要復(fù)雜的控制流、分支等功能。

一般來說，人工智能處理器架構(gòu)并未實現(xiàn)完整的通用指令集架構(gòu)（ISA），甚至也沒有實現(xiàn)精簡指令集架構(gòu)（RISC）。沒有豐富的指令集架構(gòu)和強大的編譯器支持，它們就無法高效處理非人工智能應(yīng)用。人工智能處理器在其設(shè)計目標領(lǐng)域表現(xiàn)出色，但它們并不能普遍替代通用中央處理器（CPU）。若不認清這一點，可能會導(dǎo)致系統(tǒng)設(shè)計糟糕、投資浪費，以及在非人工智能應(yīng)用中出現(xiàn)性能瓶頸。

TOPS數(shù)值越高，性能就越好

每秒萬億次運算（TOPS）常被用作人工智能處理器的營銷指標，但它并不能反映其實際性能。雖然它能衡量人工智能芯片在理想條件下（例如所有計算單元能實現(xiàn)100%利用率）的理論峰值吞吐量，但對于在實際工作負載中該性能的利用效率卻只字未提。通過使用低精度運算（例如用INT4或INT8代替FP16或FP32），每秒萬億次運算的數(shù)值可能會被夸大。

一款芯片可能擁有很高的TOPS數(shù)值，但如果數(shù)據(jù)無法快速到達計算單元，那么其潛在的運算能力就會被浪費。此外，一種架構(gòu)可能具備巨大的計算潛力，但如果軟件生態(tài)系統(tǒng)不成熟或調(diào)優(yōu)不佳，其性能也會大打折扣。

最后，不同的人工智能任務(wù)需要不同的特性。視覺模型可能受益于高度并行性（這正是TOPS所衡量的方面），但生成式Transformer需要高內(nèi)存吞吐量、緩存一致性和數(shù)據(jù)重用能力，而非原始的TOPS數(shù)值。

TOPS只是理論上的上限，并非性能的保證。這就好比僅通過最高時速來評判一輛汽車，卻不考慮路況、燃油效率或操控性。真正的人工智能性能取決于架構(gòu)的平衡性、軟件棧、數(shù)據(jù)移動效率和模型兼容性，而不僅僅是原始的計算數(shù)值。

芯片越大、核心越多，性能就一定越好

乍一看，芯片越大、處理核心越多，似乎性能就應(yīng)該越好。但實際上，增加芯片面積和核心數(shù)量會帶來顯著的邊際效益遞減，在很多情況下，甚至?xí)档托阅?、效率或可用性?/span>

人工智能工作負載的性能并不總是隨核心數(shù)量呈線性增長。更大的芯片需要更多的內(nèi)存帶寬來為其計算單元提供數(shù)據(jù)，還需要更長的線路和更復(fù)雜的互連結(jié)構(gòu)。這會導(dǎo)致布線擁堵和能耗增加。

性能并不會隨芯片尺寸或核心數(shù)量呈線性增長。更大的芯片會帶來工程、架構(gòu)和經(jīng)濟方面的權(quán)衡，這些權(quán)衡可能會抵消其理論上的優(yōu)勢。

在人工智能硬件領(lǐng)域，效率、數(shù)據(jù)移動、軟件優(yōu)化和任務(wù)適配往往比單純的芯片尺寸更能決定性能。最佳的芯片并非是最大的，而是最能平衡適配工作需求的。

32位浮點（FP32）是人工智能計算的黃金標準

在深度學(xué)習(xí)訓(xùn)練和推理的早期，32位浮點（FP32）是默認格式。隨著人工智能技術(shù)的發(fā)展，人工智能工作負載已不再采用32位浮點，轉(zhuǎn)而使用精度更低的格式，如16位浮點（FP16）、16位整數(shù)（INT16）或8位整數(shù)（INT8）。

認為32位浮點仍是黃金標準的觀點，忽視了使用低精度替代格式在效率、性能和準確性方面的巨大提升。事實上，通過量化感知訓(xùn)練和混合精度訓(xùn)練等技術(shù)，低精度格式能夠達到甚至超過32位浮點的精度。模型使用16位浮點或8位浮點通常能保持幾乎相同的精度。

因此，32位浮點已不再是黃金標準。如今的趨勢正從整數(shù)格式轉(zhuǎn)向浮點格式，有些人甚至主張使用4位浮點（FP4）。

人工智能計算依賴于精度優(yōu)化，而非最大的位寬。最佳的性能和效率來自于為特定任務(wù)選擇合適的精度，而非使用可用的最高精度格式。

稀疏模式處理優(yōu)先于密集模式處理

與密集計算相比，稀疏計算似乎具有優(yōu)勢。它通過避免處理張量（權(quán)重、激活值甚至數(shù)據(jù)）中的零值元素，來減少計算量、內(nèi)存占用和功耗，并在不犧牲模型精度的情況下提高效率。

但事實是，稀疏模式在很大程度上取決于模型結(jié)構(gòu)、數(shù)據(jù)模式和硬件能力。但稀疏性也并非是放之四海而皆準的優(yōu)化方式，也不能普遍優(yōu)于密集計算。簡單地說，它是一種有條件的優(yōu)化。

在許多情況下，密集模式仍是默認選擇，因為它具備成熟、可預(yù)測且兼容性廣泛等優(yōu)點。稀疏性是一種強大的工具，但只有在合適的環(huán)境中并獲得適當支持時才能發(fā)揮作用。

高效的標量計算是人工智能處理所需的全部

標量計算指的是一次對單個數(shù)據(jù)元素執(zhí)行一個操作，它在控制邏輯和編排方面發(fā)揮著重要作用。然而，對于現(xiàn)代人工智能工作負載的性能和效率需求，標量計算遠遠無法滿足。

雖然標量計算是必要的，但對于人工智能處理來說并不足夠。人工智能的需求需要并行、向量化和矩陣加速計算，而這些最好由為大規(guī)模、并發(fā)工作負載設(shè)計的定制硬件來處理。

僅通過先進的芯粒架構(gòu)就能實現(xiàn)處理效率

基于芯粒的設(shè)計具有多項優(yōu)勢。其中包括，由于更小的芯片更容易制造，因此能提高良率并降低成本；通過實現(xiàn)中央處理器、圖形處理器和加速器等功能的混合搭配，可實現(xiàn)模塊化的可擴展性；還能在整個組件中更高效地分布熱量和電力。這些累積的優(yōu)勢常常讓人覺得，效率（尤其是每瓦性能）是其自帶的優(yōu)勢。

盡管芯粒技術(shù)是實現(xiàn)可擴展性和集成的有效工具，但真正的處理效率需要為人工智能工作負載量身打造全新的軟硬件架構(gòu)。這一架構(gòu)藍圖應(yīng)該包括創(chuàng)新的內(nèi)存架構(gòu)以克服內(nèi)存墻問題、為人工智能應(yīng)用的算法需求量身定制的可動態(tài)重配置計算核心，以及旨在簡化軟件棧的整體設(shè)計。

若不具備上述這些要素，僅靠芯粒無法實現(xiàn)預(yù)期的收益。

CUDA是人工智能處理器的基準軟件

盡管英偉達的CUDA已成為人工智能開發(fā)的主流標準，但它并非通用基準。如果有人認為CUDA是所有人工智能處理器的基準或必需接口的觀點，那就忽視了如今不斷涌現(xiàn)的多樣化硬件架構(gòu)和軟件生態(tài)系統(tǒng)。

CUDA是一家供應(yīng)商生態(tài)系統(tǒng)中的主流工具。更廣泛的人工智能行業(yè)正朝著開放、靈活且獨立于硬件的軟件框架發(fā)展。CUDA仍然很重要，但其主導(dǎo)地位正日益受到對可移植性、互操作性和硬件選擇自由的需求的挑戰(zhàn)。人工智能的未來并不局限于一種軟件開發(fā)工具包（SDK），而是多語言、開源且具有平臺感知能力的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20255

瀏覽量
252402
AI

AI

+關(guān)注

關(guān)注
91

文章
39805

瀏覽量
301479
人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50100

瀏覽量
265495

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

關(guān)于人工智能處理器的11個誤解

評論