91av人人爱人人爽人人精品,欧美黄色电影在线

本文翻譯自Semiengineering

邊緣AI、生成式AI（GenAI）以及下一代通信技術(shù)正為本已面臨高性能與低功耗壓力的手機帶來更多計算負(fù)載。

領(lǐng)先的智能手機廠商正努力應(yīng)對本地化生成式AI、常規(guī)手機功能以及與云之間日益增長的數(shù)據(jù)傳輸需求所帶來的計算與功耗挑戰(zhàn)。

除了人臉識別等邊緣功能以及各種本地應(yīng)用，手機還必須持續(xù)適配新的通信協(xié)議以及系統(tǒng)和應(yīng)用更新。更重要的是，這一切都要在單次電池充電下完成，同時確保設(shè)備在用戶手中或貼近面部時保持低溫。

圖1：移動電話主板，右上為SoC（系統(tǒng)級芯片），包含Arm CPU及其他組件。

圖片來源：Arm

“如果你查看任何一款高端手機的配置，你會發(fā)現(xiàn)所有的SoC都采用異構(gòu)架構(gòu)，不同的模塊處理不同的任務(wù)，同時又協(xié)同工作?！?strong>Imagination Technologies細(xì)分市場戰(zhàn)略與產(chǎn)品管理高級總監(jiān)Vitali Liouti表示，“從系統(tǒng)角度來看，所有移動SoC廠商都會以平臺的方式同時考慮硬件和軟件的協(xié)同設(shè)計?！?/span>

Cadence公司硅解決方案事業(yè)部Tensilica DSP產(chǎn)品管理與市場營銷總監(jiān)Amol Borkar表示，AI網(wǎng)絡(luò)的快速演進和模型需求的多樣化使得移動SoC設(shè)計變得日益復(fù)雜?！芭c傳統(tǒng)工作負(fù)載不同，AI模型——尤其是大語言模型（LLMs）和變換器（Transformer）變體——在架構(gòu)、規(guī)模和計算需求上都在不斷變化。這對芯片設(shè)計者來說是一個移動靶，因為芯片一旦投片就無法更改，但他們?nèi)孕桀A(yù)置未來AI能力的支持。更復(fù)雜的是，芯片還必須兼顧云端的大型模型與本地推理的小型高效模型（如TinyLlama）。這些小型LLM對于移動和嵌入式設(shè)備至關(guān)重要，因為它們需要在極低功耗與存儲限制下實現(xiàn)智能功能?！?/span>

除了從系統(tǒng)角度整體規(guī)劃外，AI也正在推動單個處理器架構(gòu)和任務(wù)分配的變革。

“當(dāng)前的變化主要體現(xiàn)在兩個方向?！盨ynaptics物聯(lián)網(wǎng)與邊緣AI處理器部門副總裁兼總經(jīng)理John Weil表示，“一是Arm和RISC-V生態(tài)系統(tǒng)中的CPU架構(gòu)持續(xù)增強，人們正在為Transformer模型添加矢量數(shù)學(xué)單元以加速各類數(shù)學(xué)運算；二是神經(jīng)處理器（NPU）的改進，它們類似GPU，但專用于邊緣AI模型加速，基本上也是矢量計算單元，用于加速模型內(nèi)部的各種算子。如果查看Arm的TOSA（Tensor Operator Set Architecture）規(guī)范，里面定義了各種AI操作，開發(fā)者也在為其編寫類似GPU的OpenGL加速程序?！?/span>

圖2：移動SoC設(shè)計示意圖，AI加速器可以是GPU、NPU或高端ASIC。圖片來源：Synopsys

過去幾年，GPU和NPU的設(shè)計都經(jīng)歷了快速演進以適應(yīng)新應(yīng)用場景。Imagination的Liouti指出，在高端手機中，GPU通常占芯片面積的約25%，而NPU的體積也持續(xù)擴大以承擔(dān)更多工作負(fù)載。“具體在哪個模塊上運行任務(wù)取決于模型。例如某些層適合NPU執(zhí)行，而有些則需要GPU配合。NPU已成為低功耗任務(wù)的關(guān)鍵，尤其適用于‘始終在線’（Always-On）的場景。同時，還必須搭配高性能CPU，因為它承擔(dān)初始加載和任務(wù)管理。如果CPU性能不足，再強大的GPU或NPU也難以發(fā)揮作用。”

在所有并行處理任務(wù)（圖形、通用計算或AI）中，功耗效率始終是核心。“我們對標(biāo)量單元（ALU）進行了全面重構(gòu)和調(diào)優(yōu)，以實現(xiàn)更高的能效。”Imagination產(chǎn)品管理副總裁Kristof Beets表示，“接下來我們要將更多NPU技術(shù)引入GPU，例如更專用的數(shù)據(jù)類型和處理管線，以在保持可擴展性的同時提供更強性能。當(dāng)然，我們也不能忽視開發(fā)者社區(qū)，如何實現(xiàn)開箱即用、如何進行高效優(yōu)化與調(diào)試，這是我們重點關(guān)注的方向。”

如今，將AI集成進芯片的難度已大幅降低。“五年前大家還在問AI到底該怎么做，是不是得雇一整個數(shù)據(jù)科學(xué)家團隊？現(xiàn)在完全不是這樣了?！盜nfineon IoT、消費及工業(yè)MCU部門高級副總裁Steve Tateosian說，“我們擁有一整個DSP博士工程師團隊，他們在調(diào)試音頻前端，開發(fā)工程師通過AI工具來建模即可。開發(fā)流程也變得極為順暢：數(shù)據(jù)采集、標(biāo)注、建模、測試、優(yōu)化——工具鏈已大幅提升，很多專業(yè)知識已內(nèi)嵌其中，讓更多工程師都能上手?！?/span>

視覺化、無線化與觸控挑戰(zhàn)

隨著AI應(yīng)用增長，界面也趨于視覺化，對處理能力的要求更高。

“過去是計算機或基于文本的界面，如今一切都變成了視頻或全圖形界面，而這類界面的計算需求要高得多。”Ansys產(chǎn)品營銷總監(jiān)Marc Swinnen表示，“無論是屏幕輸入還是1080p等格式的視頻輸出，視頻的輸入輸出管理都需要大量計算資源?！?/span>

此外，如今手機中的所有功能幾乎都是無線的，因此模擬電路的比例大幅上升?！艾F(xiàn)在的手機大約配有六根天線——這太瘋狂了?！盨winnen說，“所有這些高頻通信功能，包括Wi-Fi、5G、藍(lán)牙、AirDrop等，都有各自的頻段、芯片和天線?！?/span>

通信標(biāo)準(zhǔn)不斷演進的事實，也為SoC設(shè)計者帶來了額外挑戰(zhàn)。

“當(dāng)前的關(guān)鍵在于推動AI應(yīng)用落地，并加速UFS（通用閃存存儲）的標(biāo)準(zhǔn)推進。”Synopsys移動、汽車和消費類IP產(chǎn)品管理執(zhí)行總監(jiān)、MIPI聯(lián)盟主席Hezi Saar表示，“MIPI聯(lián)盟成功將推進時間提前了一年，這大大降低了風(fēng)險。行業(yè)現(xiàn)在正在定義這個規(guī)范。SoC和IP廠商需要在規(guī)范尚未完全定稿時就開始開發(fā)自己的IP。他們需要在規(guī)范尚不完整時完成流片、拿到初步的硅片，同時還要為下一版規(guī)范做規(guī)劃，提前考慮互操作性以及生態(tài)系統(tǒng)的構(gòu)建。這在過去是不可想象的。以前標(biāo)準(zhǔn)的更新是有節(jié)奏的，比如每兩年一個版本。但現(xiàn)在節(jié)奏被大大壓縮，因為AI更偏向軟件領(lǐng)域，而它對硬件的影響巨大。硬件終究不是軟件?！?/span>

圖3：智能手機中的LLM或AI引擎依賴高效存儲訪問。

圖片來源：Synopsys

“當(dāng)你啟動設(shè)備時，大部分模型需要加載到DRAM中，這意味著從UFS存儲設(shè)備到SoC的讀取鏈路必須非常高效?！盨aar表示，“這關(guān)乎延遲——你不能按下按鈕提問，然后等兩秒鐘。當(dāng)然，也有其他處理方式，比如你不必讀取整個模型，可以進行部分讀取。但這些系統(tǒng)的核心任務(wù)就是將數(shù)據(jù)快速傳輸?shù)紻RAM。我已經(jīng)在芯片上運行了LLM，比如通過某個加速器，但它需要和DRAM高效連接以完成計算，然后再將結(jié)果返回給用戶，比如音頻輸出。在移動設(shè)備中，這個流程必須非常高效，功耗尤為關(guān)鍵。因此廠商會盡可能減少傳輸次數(shù)，并將UFS存儲盡可能多地置于休眠狀態(tài)。我預(yù)計未來存儲接口和DRAM接口都會發(fā)展得非常非?？臁h(yuǎn)快于以往?！?/span>

多模態(tài)模型和像Stable Diffusion這樣的生成式AI工具也加大了系統(tǒng)的復(fù)雜性。這類模型將文本、圖像，甚至音頻處理集成到統(tǒng)一架構(gòu)中。Cadence的Borkar表示：“這些模型需要一種靈活高效的計算架構(gòu)，能夠處理多樣的數(shù)據(jù)類型和執(zhí)行模式。為了在快速演進的AI環(huán)境中保持韌性，AI子系統(tǒng)在設(shè)計時必須具備面向未來的可擴展性。這通常意味著在NPU旁邊集成可編程IP塊，使SoC能在芯片量產(chǎn)后仍能適配新模型和新負(fù)載。支持如此廣泛的AI應(yīng)用場景，要求SoC不僅性能強大、能效高，還要具備高度的架構(gòu)靈活性，這也讓AI中心化芯片設(shè)計成為移動計算領(lǐng)域最具挑戰(zhàn)性的前沿方向之一?！?/span>

算法在手機上的另一個典型應(yīng)用是判斷哪些觸控是有效的，哪些不是，無論是傳統(tǒng)的“糖塊機”還是折疊屏手機。后者由于屏幕極薄，挑戰(zhàn)更大。

“屏幕變得很薄時，觸控層必須貼得非常接近帶噪聲的顯示層。”Synaptics產(chǎn)品營銷總監(jiān)Sam Toba表示，“我們需要處理來自單個像素的大量顯示噪聲。這在超薄顯示器中是個問題。背景層越薄，電容板之間越接近，整體電容就越高。而觸控本身依賴檢測非常微小的電容變化，在背景電容極高的情況下，識別出有效手指信號就變得更加困難?！?/span>

這種超低功耗芯片必須在本地判斷哪些信號是有效的，只有在確認(rèn)是有效觸控后才喚醒主SoC?！叭绻芍骺匦酒瑏碜R別觸控信號，它就必須持續(xù)運行，這將導(dǎo)致巨大的功耗。因此，大部分無效觸控必須在本地就被過濾掉。”

本地AI處理與模型部署

手機中集成了眾多AI應(yīng)用，且數(shù)量還在持續(xù)增加。Ansys的Swinnen指出，在可能的情況下，AI推理應(yīng)盡量在本地完成，僅將精簡過的信息上傳至云端。例如，人臉識別或圖像處理等機器學(xué)習(xí)功能應(yīng)靠近攝像頭完成處理。

即便是像ChatGPT或具備智能代理功能的GenAI模型，其推理過程也可本地完成。Synopsys的Saar表示，AI模型現(xiàn)在更高效也更緊湊，大小從幾兆到幾十兆不等，完全可以部署在設(shè)備本地，視具體模型與設(shè)備而定。

在本地處理AI帶來諸多優(yōu)勢。Siemens Digital Industries Software的網(wǎng)絡(luò)解決方案專家Ron Squiers指出：“將AI硬件集成到移動設(shè)備中，可以直接在本地運行大語言模型的推理，不再需要將數(shù)據(jù)發(fā)回云端處理。這帶來的好處是雙重的：延遲更低，響應(yīng)更及時，閉環(huán)控制性能更好；同時還可提升數(shù)據(jù)隱私，因為數(shù)據(jù)不會離開設(shè)備。”

Infineon的Tateosian也表示贊同：“數(shù)據(jù)不再上傳云端，這降低了功耗和成本。有些邊緣AI應(yīng)用甚至可以在不引入連接成本的前提下提升智能水平，或者減少對連接的依賴——這意味著減少云端通信和終端設(shè)備的整體功耗。”

Imagination的Liouti指出，如今是一個“極致優(yōu)化（hyper-optimization）”的時代，設(shè)計者必須消除一切“技術(shù)債務(wù)”，從而榨取設(shè)備更多性能：“數(shù)據(jù)搬移消耗了約78%的功耗。我們工作的重點是如何減少這些數(shù)據(jù)移動。這可以通過GPU實現(xiàn)，也是我們主要發(fā)力的地方，但也可以在平臺級或SoC層面優(yōu)化。我們需要開發(fā)非常先進的技術(shù)來解決這個問題。而對于神經(jīng)網(wǎng)絡(luò)尤其是大型模型而言，數(shù)據(jù)搬運的挑戰(zhàn)會更大?！?/span>

盡管本地AI推理正在快速發(fā)展，但由于電池和功耗的限制，仍有部分任務(wù)需要依賴云端?！澳憧傄兴∩??！盠iouti說，“這只是一個旅程的開始，幾年后情況會截然不同。我們現(xiàn)在還只是剛剛起步。我認(rèn)為transformer是未來更大系統(tǒng)的基礎(chǔ)模塊。目前，我們需要將炒作和現(xiàn)實區(qū)分開。以本地運行圖像生成模型為例，雖然現(xiàn)在手機上也能跑，但性能遠(yuǎn)不如你在PC上用Midjourney生成的圖像。不過幾年后，情況就會變了?！?/span>

更強大的GPU也將成為解決方案的一部分?！霸谝苿悠脚_上，我們可以把省下來的功耗轉(zhuǎn)化為更高的主頻和更強的性能，同時依然保持在同一個功耗與熱預(yù)算范圍內(nèi)。”Imagination的Kristof表示。

不過Infineon的Tateosian也指出，盡管設(shè)備每一代的性能和內(nèi)存都在增長，但用戶實際體驗變化不大?！耙驗檐浖脑鲩L完全吞噬了這些性能提升?！?/span>

結(jié)語

移動SoC設(shè)計正受到多項關(guān)鍵趨勢的驅(qū)動。

“模擬部分的增長、一切內(nèi)容視頻化與AI化，再加上當(dāng)今應(yīng)用對高性能計算（HPC）的需求，使得芯片必須具備極強的算力。”Ansys的Swinnen表示，“這些因素正在推動SoC的演進，但手機制造商面臨的限制在于，他們必須保持低功耗和小尺寸設(shè)計，同時相比于像NVIDIA這樣的GPU公司，他們在成本上受到更嚴(yán)格的限制。NVIDIA可以優(yōu)先考慮性能，即使成本略高也無妨。但手機芯片不一樣，它必須能以極低成本大規(guī)模量產(chǎn)?！?/span>

芯片設(shè)計者必須從軟硬件協(xié)同的角度出發(fā)來設(shè)計SoC?！叭魏魏鲆曔@點的人，最終都會失敗。”Imagination的Liouti強調(diào)，“我們必須將語言模型的層級、操作類型等問題納入考慮。聽起來簡單，但實際上并不容易。你必須找到一種方式，最大化利用硬件來完成數(shù)學(xué)運算，從而確保你的解決方案在競爭中脫穎而出，因為我們面對的是行業(yè)巨頭。必須進行軟硬件協(xié)同設(shè)計，而這絕非一個工程師就能獨立完成的任務(wù)，而是需要多個學(xué)科背景的專家共同合作，其中有些領(lǐng)域甚至看起來毫不相關(guān)?！?/span>

原文鏈接：https://semiengineering.com/mobile-chip-challenges-in-the-ai-era/

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

手機芯片

手機芯片

+關(guān)注

關(guān)注
9

文章
375

瀏覽量
50726
AI

AI

+關(guān)注

關(guān)注
91

文章
39684

瀏覽量
301287

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

AI?時代來襲，手機芯片面臨哪些新挑戰(zhàn)？

評論

搜索歷史

AI?時代來襲，手機芯片面臨哪些新挑戰(zhàn)？

評論

AI?時代來襲，手機芯片面臨哪些新挑戰(zhàn)？