[首發(fā)于智駕最前沿微信公眾號]之前和大家聊過一個話題,那就是激光雷達線束對算力的影響。攝像頭作為自動駕駛非常關鍵的另一個感知硬件,其像素大小是否會影響算力消耗?
其實從早期的1.2兆像素(1.2MP)到如今主流的8兆像素(8MP),甚至更高分辨率,像素的提升直接決定了車輛能夠“看多遠”和“看多清”。不同于激光雷達,攝像頭像素的增加會對整車算力平臺提出更為嚴苛的要求。這種要求不僅體現(xiàn)在原始數(shù)據(jù)的吞吐量上,更體現(xiàn)在后端神經網(wǎng)絡推理的復雜度、圖像信號處理器(ISP)的處理壓力以及內存帶寬的占用上。

圖像信號處理與物理吞吐的連鎖反應
攝像頭之所以在自動駕駛中非常重要,主要是因為其對紋理、色彩及交通標志等語義信息的捕捉能力非常優(yōu)異,這是激光雷達和毫米波雷達難以企及的。隨著自動駕駛等級從L2向L4/L5邁進,系統(tǒng)需要識別更遠距離的小物體,這便驅動了攝像頭從低分辨率向高分辨率的進化。
高像素攝像頭帶來的直接優(yōu)勢是更高的像素密度,這意味著在相同的視野范圍內,遠端物體能分得更多的像素點,從而提高深度學習模型對該物體分類和檢測的準確率。
像素的增加除了帶來性能上的提升,更帶來了巨大的數(shù)據(jù)吞吐壓力。圖像傳感器捕獲的每一幀畫面,本質上都是海量電信號的集合。以一個8MP的攝像頭為例,在60幀每秒(fps)的運行頻率下,每秒產生的數(shù)據(jù)點高達4.8億個。在自動駕駛感知方案中,全車可能配備11個甚至更多的攝像頭,這意味著每秒鐘會有數(shù)千兆字節(jié)(GB)的原始圖像信號涌入計算平臺。

圖片源自:網(wǎng)絡
這種量級的數(shù)據(jù)流首先沖擊的就是圖像信號處理器(ISP)。ISP負責將傳感器捕獲的“裸數(shù)據(jù)”轉化為機器可理解的格式,這中間涉及去噪、色彩校正、動態(tài)范圍壓縮等一系列復雜的數(shù)學運算。
像素越高,ISP在單位時間內需要處理的像素點就越多。ISP雖然是高度集成的硬件模塊,但其功耗和發(fā)熱量仍會隨處理負荷線性增長。為了應對這一挑戰(zhàn),汽車芯片架構正經歷從分立ISP向集成SoC(系統(tǒng)級芯片)轉變。將ISP功能整合進主算力芯片,可以顯著減少圖像數(shù)據(jù)在不同板載組件之間傳輸時的延遲和功耗。
即便如此,高分辨率帶來的“數(shù)據(jù)搬運費”依然昂貴。在自動駕駛計算單元內部,數(shù)據(jù)從接口到內存、再到處理器核心的每一次遷移,都需要消耗微焦耳級別的能量。在數(shù)億像素的規(guī)模下,這種細微的能耗累積起來,便會構成大量的系統(tǒng)輔助功耗。
內存帶寬是另一個與像素息息相關的關鍵指標。當高像素圖像數(shù)據(jù)被緩存進內存以供AI引擎讀取時,它會占用大量的LPDDR5等高速內存資源。如果帶寬不足,圖像處理就會出現(xiàn)掉幀或延遲,這在高速行駛的場景下是極其危險的。

從局部特征到全局注意力的計算
真正讓高像素攝像頭成為算力消耗大戶的,是后端的深度學習推理過程。目前主流的自動駕駛感知算法大多基于卷積神經網(wǎng)絡(CNN)或視覺變換器(Transformer)。在這些模型中,計算復雜度與輸入圖像的分辨率呈正相關,而在一些先進的注意力機制架構中,計算量的增長甚至是像素數(shù)量的平方關系。
在CNN架構下,神經網(wǎng)絡通過一個個“卷積核”在圖像上滑動來提取特征。當圖像分辨率從2MP增加到8MP時,特征圖的大小也同步擴張,這意味著卷積操作的次數(shù)增加了四倍。
雖然可以通過步長跳躍或池化技術來壓縮特征圖,但這樣做會犧牲高像素帶來的細小物體檢測能力,從而抵消了升級傳感器的初衷。
而對于更先進的Transformer架構,它需要計算圖像中不同區(qū)域之間的關聯(lián)性。這種“全局注意力機制”在處理百萬級像素的圖像時,會產生極其龐大的相關性矩陣,對算力芯片的算術邏輯單元(ALU)造成巨大的并發(fā)壓力。
下表對比了典型視覺感知模型在不同輸入分辨率下的計算需求(以FLOPs衡量):
| 模型類型 | 輸入分辨率 | 像素規(guī)模(MP) | 典型計算量(FLOPs) | 算力占用比(相對1MP) |
| 輕量級CNN(YOLO-n) | 640×640 | 0.4 | ~8GFLOPs | 0.4x |
| 主流CNN(YOLO-m) | 1280×1280 | 1.6 | ~50GFLOPs | 1.6x |
| 高端視覺Transformer | 1024×1024 | 1.0 | ~150GFLOPs | 1.0x |
| 高端視覺Transformer | 2048×2048 | 4.0 | ~600+GFLOPs | 4.0x+ |
可以看到,隨著分辨率的提升,AI芯片每秒需要執(zhí)行的浮點運算次數(shù)迅速攀升。為了在有限的芯片面積內實現(xiàn)這種高性能,像英偉達Orin或特斯拉FSD的芯片必須集成數(shù)以千計的核心,這直接導致了SoC功耗的上升。
此外,為了訓練能處理高像素的模型,云端訓練的算力需求也呈指數(shù)級增長。如果希望在不增加延遲的前提下提升分辨率,就必須尋找更高效的算子或采用模型量化技術,但這本質上是在利用算法的精細化去對沖像素增長帶來的資源赤字。
自動駕駛感知不僅是檢測障礙物,還包括語義分割,即給圖像中的每一個像素點貼上“屬性標簽”(路面、人行道、樹木、天空)。在高像素模式下,這種全像素級別的分類任務會讓算力平臺陷入無休止的計算中。
目前行業(yè)內的應對策略是采用“非均勻采樣”或“多尺度融合”,即在視野中心使用高分辨率進行精細識別,而在視野邊緣或不重要的天空區(qū)域使用低分辨率,以此來平衡精度與算力。

為什么激光雷達能減負而攝像頭只能增重?
激光雷達通過發(fā)射激光束并測量回波時間來直接獲取三維空間坐標。激光雷達的線束越多,點云就會越密集。對于后端算法來說,點云越密集,物體的輪廓就越清晰,算法不再需要耗費大量的算力去猜測物體的距離或尺寸,只需要簡單的聚類和幾何分割就能完成感知任務。因此,在某種程度上,激光雷達是用硬件的昂貴和數(shù)據(jù)的稠密,換取了感知邏輯的簡化。
攝像頭的情況則恰恰相反。作為一種被動傳感器,攝像頭捕獲的是三維世界在二維平面上的投影。即使像素達到了8MP甚至更高,它依然缺乏直接的深度信息。感知系統(tǒng)必須通過復雜的神經網(wǎng)絡,根據(jù)物體的紋理、陰影、重疊關系或雙目視差來反推三維信息。
這意味著,攝像頭像素的增加,只是提供了更豐富的“猜測素材”,而不是“現(xiàn)成的答案”。算法為了處理這些更豐富的細節(jié),就需要更深的網(wǎng)絡層數(shù)和更復雜的邏輯,從而推高了整體算力消耗。
這種差異決定了兩種傳感器的算力邊際效益,激光雷達線束的提升在跨過某個閾值后,能夠有效降低算法補盲和糾錯的難度,甚至可能減少后端融合算法的復雜性。
而攝像頭像素的提升,則更像是一場無止境的“計算競賽”,因為像素越多,潛在的可解析信息量就越大,系統(tǒng)為了不浪費這些信息,不得不持續(xù)投入更多的算力進行深挖。
這種也解釋了為什么像特斯拉這樣堅持“純視覺”路線的公司,必須持續(xù)升級其板載計算機(如從HW3到HW4,再到計劃中的HW5)。因為純視覺方案需要將所有的環(huán)境理解壓力都壓在神經網(wǎng)絡上,而更高的像素又是提升感知識別距離的唯一途徑。
為了獲取更長的剎車反應距離,系統(tǒng)必須看清更遠的像素,而為了看清更遠的像素,系統(tǒng)就必須擁有能處理這些海量數(shù)據(jù)的更強大腦。

如何破解?
為了解決上述的問題,自動駕駛領域正在積極探索更加智能的資源管理策略。其中最成熟的方案之一是“區(qū)域關注”(Region of Interest,ROI)策略。類似于人類駕駛員在駕駛時會重點觀察后視鏡和正前方,忽略無關的背景,自動駕駛感知算法也可以動態(tài)地為圖像中的不同區(qū)域分配計算權重。
在實際應用中,系統(tǒng)可以先用一個輕量級的小模型在大圖上掃描出可能存在的車輛或行人的“候選框”,然后再對這些特定區(qū)域調用高像素數(shù)據(jù)進行精細識別。這種方法不僅保留了高像素帶來的遠距離識別優(yōu)勢,更避免了在處理整幅高像素圖像時產生的冗余運算。
還有一個方向是事件攝像頭(Event-based Camera)的應用。不同于傳統(tǒng)攝像頭無論畫面是否變化都按固定幀率輸出圖像,事件攝像頭只輸出光強發(fā)生改變的像素點。

圖片源自:網(wǎng)絡
這意味著如果畫面保持靜止,該傳感器的輸出幾乎為零;當有物體快速劃過時,它能以微秒級的響應速度捕獲邊緣信息。這種基于“變化”的感知模式天然地實現(xiàn)了數(shù)據(jù)稀疏化,能夠將后端處理器的算力消耗降低幾個數(shù)量級。
目前,一些技術方案正在嘗試將傳統(tǒng)高像素攝像頭與高幀率事件攝像頭進行融合,利用前者提供靜態(tài)語義,利用后者提供動態(tài)捕捉,從而在不增加總帶寬的前提下提升系統(tǒng)在極端動態(tài)場景下的安全性。
硬件架構的演進也在從底層緩解像素壓力。傳統(tǒng)的計算架構中,圖像數(shù)據(jù)需要從傳感器經過漫長的路徑到達CPU或GPU進行處理,這中間的搬運能耗極高。新興的“感存算一體化”技術嘗試將計算邏輯直接集成在圖像傳感器的周邊電路中,甚至直接在內存芯片內進行基礎的卷積運算。
通過在數(shù)據(jù)產生的源頭就過濾掉無效像素或完成基礎的去噪和縮放,可以極大地減輕主SoC的負擔。這種從“暴力計算”向“精細化感知”的轉變,也代表了自動駕駛感知的未來趨勢。

最后的話
自動駕駛中攝像頭像素的提升確實會對算力消耗產生巨大的推動作用。這不僅是因為數(shù)據(jù)量的簡單翻倍,更是因為更豐富的視覺信息誘導了更復雜的算法挖掘。雖然激光雷達的線束增加可以在某種程度上“簡化”感知邏輯,但攝像頭的像素演進卻始終伴隨著算力的極限壓榨。
審核編輯 黃宇
-
攝像頭
+關注
關注
61文章
5102瀏覽量
103319 -
自動駕駛
+關注
關注
794文章
14928瀏覽量
180614
發(fā)布評論請先 登錄
自動駕駛攝像頭像素如何影響算力?
評論