繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認(rèn)可后,后摩智能再傳捷報(bào)——4篇論文成功入選國際頂級人工智能會議ICLR 2026(International Conference on Learning Representations),聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項(xiàng)量化等端側(cè)部署關(guān)鍵技術(shù),提出多項(xiàng)創(chuàng)新性解決方案,進(jìn)一步夯實(shí)后摩智能在端側(cè)AI芯片與算法融合領(lǐng)域的技術(shù)壁壘,助力大模型在資源受限設(shè)備上實(shí)現(xiàn)高精度、高效率落地。
01【ICLR-2026】NLI:非均勻線性插值LUT
后摩智能芯片算法團(tuán)隊(duì)和東南大學(xué)聯(lián)合提出非均勻線性插值方法NLI(Non-Uniform Interpolation LUT),并設(shè)計(jì)配套的NLI Engine硬件模塊,攻克了大語言模型中非線性算子(如EXP、Rsqrt)在端側(cè)部署時(shí)“精度與效率不可兼得”的難題,通過動態(tài)規(guī)劃優(yōu)化插值節(jié)點(diǎn)布局,實(shí)現(xiàn)非線性函數(shù)的高效近似,大幅降低硬件資源開銷,適配各類端側(cè)NPU平臺。相關(guān)研究成果已應(yīng)用于后摩智能端側(cè)AI芯片的非線性計(jì)算單元設(shè)計(jì)。
非線性算子是LLMs推理過程中的核心組件,直接影響模型精度,但這類算子計(jì)算復(fù)雜,在端側(cè)資源受限設(shè)備上難以高效部署。現(xiàn)有解決方案主要分為兩類:一是基于神經(jīng)網(wǎng)絡(luò)的LUT擬合(如NN-LUT),但泛化能力差,易出現(xiàn)精度驟降;二是均勻插值LUT方法,無法適配非線性函數(shù)的曲率差異,高曲率區(qū)域誤差過大,且硬件實(shí)現(xiàn)需大量比較器,資源開銷高。這些問題嚴(yán)重制約了LLMs在端側(cè)的實(shí)時(shí)推理性能。
NLI以“數(shù)據(jù)無關(guān)、全局最優(yōu)、硬件友好”為核心目標(biāo),通過兩大核心創(chuàng)新實(shí)現(xiàn)突破,同時(shí)配套硬件模塊優(yōu)化,形成“算法-硬件”協(xié)同解決方案:
核心創(chuàng)新一:動態(tài)規(guī)劃非均勻節(jié)點(diǎn)布局(DP-based Non-Uniform Cutpoint Placement)。將插值節(jié)點(diǎn)(cutpoints)選擇問題轉(zhuǎn)化為動態(tài)規(guī)劃問題,在固定節(jié)點(diǎn)預(yù)算下,基于FP16數(shù)值范圍的曲率特征,全局優(yōu)化節(jié)點(diǎn)分布,在高曲率區(qū)域密集布局節(jié)點(diǎn),低曲率區(qū)域精簡節(jié)點(diǎn),既保證近似精度,又減少節(jié)點(diǎn)數(shù)量,避免資源浪費(fèi);同時(shí)無需數(shù)據(jù)校準(zhǔn),適配各類非線性算子,泛化能力極強(qiáng)。
核心創(chuàng)新二:兩級地址翻譯計(jì)算策略(Two-Level Address Translation)。設(shè)計(jì)“宏區(qū)間-微區(qū)間”兩級布局,將全局節(jié)點(diǎn)劃分為10個(gè)宏區(qū)間,中間8個(gè)宏區(qū)間再細(xì)分為32個(gè)微區(qū)間,僅需10個(gè)比較器即可完成地址定位,相比傳統(tǒng)均勻插值方法(需259個(gè)比較器),大幅降低硬件開銷;同時(shí)預(yù)計(jì)算插值系數(shù),通過簡單乘加運(yùn)算完成線性插值,兼顧效率與精度。
核心創(chuàng)新三:NLI Engine硬件模塊。NLI Engine采用四級流水線設(shè)計(jì),適配1GHz時(shí)鐘頻率,集成LUT存儲、兩級地址翻譯、線性插值計(jì)算等功能,可直接作為 plug-and-play 模塊集成到端側(cè)NPU中。實(shí)驗(yàn)表明,NLI在各項(xiàng)指標(biāo)上全面超越現(xiàn)有SOTA方法:
軟件層面:在LLaMA3、Qwen2.5等系列大模型上,替換非線性算子后,零樣本精度、困惑度(PPL)與FP32浮點(diǎn)模型基本一致,最壞-case誤差低于1.2×10?3,超越NN-LUT等方法;硬件層面:NLI Engine相比NN-LUT、RI-LUT硬件模塊,面積分別節(jié)省68%、69%,功耗降低26%、29%,效率提升4.02×、4.29×,且吞吐量保持1GHz,完美適配端側(cè)資源受限場景,為LLMs端側(cè)實(shí)時(shí)推理提供核心計(jì)算支撐。
文章鏈接:https://arxiv.org/abs/2602.02988
02【ICLR-2026】SAES-SVD:自適應(yīng)誤差抑制SVD
后摩智能芯片算法團(tuán)隊(duì)提出自適應(yīng)誤差抑制低秩壓縮框架SAES-SVD(Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression),創(chuàng)新性地將累積誤差補(bǔ)償與自適應(yīng)權(quán)重優(yōu)化融入SVD低秩分解,攻克了傳統(tǒng)低秩壓縮方法中“層間誤差累積、精度持續(xù)下降”的核心痛點(diǎn),無需微調(diào)或混合秩策略,即可實(shí)現(xiàn)大模型高效壓縮與高精度保留,為端側(cè)大模型的參數(shù)壓縮部署提供全新解決方案。
低秩壓縮(基于SVD)是大模型端側(cè)部署的關(guān)鍵技術(shù)之一,具有硬件無關(guān)、兼容性強(qiáng)的優(yōu)勢,已被廣泛應(yīng)用于LLMs壓縮。但現(xiàn)有SVD-based方法(如ASVD、SVD-LLM)均采用“逐層獨(dú)立優(yōu)化”策略,僅關(guān)注單一層級的重構(gòu)誤差最小化,忽視了壓縮誤差的層間傳播與累積——上游層的微小重構(gòu)誤差,會隨著網(wǎng)絡(luò)深度增加不斷放大,導(dǎo)致下游層輸入分布偏移,最終使模型輸出與浮點(diǎn)基線偏差顯著,難以滿足端側(cè)部署的精度要求。
SAES-SVD通過兩大核心模塊協(xié)同工作,實(shí)現(xiàn)“局部誤差抑制+全局誤差補(bǔ)償”,徹底解決誤差累積問題:
核心模塊一:累積誤差感知層壓縮(CEALC)。打破逐層獨(dú)立優(yōu)化的局限,將壓縮目標(biāo)定義為“局部重構(gòu)誤差+累積誤差補(bǔ)償”的加權(quán)組合,不僅最小化當(dāng)前層的輸出重構(gòu)誤差,還通過對齊當(dāng)前層與浮點(diǎn)模型的輸出,補(bǔ)償上游層傳播的累積誤差;基于二階激活統(tǒng)計(jì)量(輸入?yún)f(xié)方差、差分協(xié)方差)推導(dǎo)閉解,無需存儲海量原始激活數(shù)據(jù),大幅降低內(nèi)存開銷,同時(shí)保證優(yōu)化效率。
核心模塊二:自適應(yīng)協(xié)同誤差抑制(ACES)。針對不同層對累積誤差的敏感度差異,引入自適應(yīng)加權(quán)系數(shù),通過最大化低秩子空間的能量保留率(RER),動態(tài)調(diào)整累積誤差補(bǔ)償?shù)膹?qiáng)度——對高敏感度層增強(qiáng)補(bǔ)償,對低敏感度層精簡資源,確保在固定秩預(yù)算下,保留模型關(guān)鍵信息,提升壓縮效率,避免過度補(bǔ)償導(dǎo)致的資源浪費(fèi)。
實(shí)驗(yàn)表明,SAES-SVD在各類LLMs上表現(xiàn)優(yōu)異,優(yōu)勢顯著:在LLaMA-3-8B模型上,壓縮比為0.2時(shí),相比傳統(tǒng)SVD-LLM,輸出與浮點(diǎn)模型的余弦相似度從0.79提升至0.95以上,有效抑制誤差累積;在LLaMA-7B模型上,0.2壓縮比下,零樣本精度下降僅0.02,遠(yuǎn)低于現(xiàn)有方法。無需任何微調(diào)或混合秩策略,即可實(shí)現(xiàn)“高壓縮比、高精度、低開銷”,為端側(cè)大模型低秩壓縮提供全新范式。
文章鏈接:https://arxiv.org/abs/2602.03051
03【ICLR-2026】KBVQ-MoE:面向MoE大模型的KLT引導(dǎo)SVD與偏置校正矢量量化方法
后摩智能芯片算法團(tuán)隊(duì)提出面向混合專家(MoE)大語言模型的矢量量化框架KBVQ-MoE(KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs),創(chuàng)新性地融合KLT變換、SVD低秩分解與偏置校正技術(shù),專門解決MoE架構(gòu)量化中“專家間冗余浪費(fèi)碼本、量化誤差累積導(dǎo)致分布偏移”的核心痛點(diǎn),實(shí)現(xiàn)MoE大模型超低比特量化下的高精度保留與高效部署,填補(bǔ)了現(xiàn)有MoE量化方法缺乏輸入驅(qū)動協(xié)同優(yōu)化機(jī)制的空白,相關(guān)成果可直接適配端側(cè)資源受限設(shè)備的MoE大模型部署需求。
MoE大模型憑借“專家分工、稀疏激活”的特性,在參數(shù)規(guī)模與推理效率間實(shí)現(xiàn)平衡,成為端側(cè)部署的重要選擇,但現(xiàn)有MoE量化方法存在明顯局限:多數(shù)方法未整合輸入激活的統(tǒng)計(jì)特征,既無法充分利用專家間共享的輸入相關(guān)共性模式,也未能針對性校正專家量化誤差導(dǎo)致的分布偏移,在高壓縮比場景下難以平衡模型精度與部署效率,無法適配端側(cè)設(shè)備的存儲與計(jì)算約束。
KBVQ-MoE以“輸入驅(qū)動去冗余、偏置校正穩(wěn)輸出”為核心,構(gòu)建兩大關(guān)鍵模塊協(xié)同工作的完整框架,形成“預(yù)處理-量化-后處理”的全流程優(yōu)化方案,同時(shí)兼顧算法創(chuàng)新性與端側(cè)硬件適配性:
核心模塊一:輸入驅(qū)動冗余消除(IDRE)?;谳斎爰せ畹慕y(tǒng)計(jì)特征,通過KLT變換構(gòu)建輸入相干空間,將所有專家的權(quán)重矩陣投影至該空間,實(shí)現(xiàn)權(quán)重結(jié)構(gòu)與輸入特征的精準(zhǔn)對齊;隨后通過SVD分解提取專家間的共享主導(dǎo)分量并保留全精度,僅對專家專屬的非冗余分量進(jìn)行量化,大幅降低冗余信息對碼本的占用,提升量化效率。該模塊通過三步實(shí)現(xiàn)冗余消除:一是對輸入激活進(jìn)行KLT分解,構(gòu)建基于輸入能量排序的正交相干基;二是將專家權(quán)重投影至該相干空間,建立權(quán)重與輸入特征的直接關(guān)聯(lián);三是通過SVD分解分離共享分量與專家專屬分量,共享分量全精度保留,專屬分量用于后續(xù)量化。
核心模塊二:偏置校正輸出穩(wěn)定(BCOS)。針對專家專屬分量量化后產(chǎn)生的累積偏置,設(shè)計(jì)通道級仿射補(bǔ)償機(jī)制,通過對齊量化輸出與全精度輸出的均值和方差,抑制量化誤差導(dǎo)致的分布偏移,確保模型輸出穩(wěn)定性。具體而言,先對專家專屬分量進(jìn)行矢量量化,再引入通道級縮放因子與偏置項(xiàng),基于最小均方誤差(MMSE)準(zhǔn)則優(yōu)化參數(shù),僅增加少量額外參數(shù)(每一層2倍輸出通道數(shù)),即可實(shí)現(xiàn)低開銷的偏置校正,避免誤差在專家聚合過程中被放大。
實(shí)驗(yàn)表明,KBVQ-MoE在主流MoE大模型上表現(xiàn)遠(yuǎn)超現(xiàn)有SOTA方法,適配端側(cè)超低比特部署場景:在Qwen3-30B-A3B、Mixtral-8x7B等模型上,2-3bit量化時(shí),零樣本平均精度接近FP16全精度,其中Mixtral-8x7B在3bit量化下,WikiText2數(shù)據(jù)集上的困惑度(PPL)低至4.07,與全精度模型僅相差0.19;相比GPTQ、MoEQuant等現(xiàn)有方法,KBVQ-MoE在2bit量化時(shí),Qwen3-30B-A3B的平均精度提升10個(gè)百分點(diǎn)以上,困惑度降低近6個(gè)點(diǎn)。同時(shí),該框架可作為通用插件,與現(xiàn)有矢量量化方法(如GPTVQ、VPTQ)集成,進(jìn)一步提升其性能,在Qwen1.5-MoE-A2.7B模型上,與GPTVQ集成后3bit量化的困惑度提升近30%。
在端側(cè)部署適配性上,KBVQ-MoE無需修改MoE模型的專家結(jié)構(gòu)與路由機(jī)制,量化后模型推理速度較全精度模型提升1.5-1.6倍,僅增加可忽略的計(jì)算與存儲開銷,完美適配后摩智能端側(cè)AI芯片架構(gòu),可廣泛應(yīng)用于車載、嵌入式、邊緣設(shè)備等資源受限場景,為MoE大模型的端側(cè)規(guī)?;渴鹛峁┖诵募夹g(shù)支撐。
文章鏈接:https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf
04【ICLR-2026】PCDVQ:基于極性聚類的矢量量化
后摩智能芯片算法團(tuán)隊(duì)提出極性聚類矢量量化框架PCDVQ(Polar Clustering Vector Quantization),創(chuàng)新性地將極性聚類與矢量量化深度結(jié)合,攻克了大語言模型(LLMs)超低比特量化中碼本利用率低、精度損失顯著的核心痛點(diǎn),為LLMs在邊緣設(shè)備、嵌入式終端的極致壓縮部署提供了高效解決方案。
隨著LLMs參數(shù)規(guī)模持續(xù)擴(kuò)大,超低比特(2-bit及以下)量化成為實(shí)現(xiàn)端側(cè)部署的關(guān)鍵手段,但傳統(tǒng)矢量量化方法存在兩大核心瓶頸:一是碼本學(xué)習(xí)過程中易出現(xiàn)“碼本崩潰”,部分碼本長期閑置,導(dǎo)致量化精度下降;二是忽視權(quán)重極性特征,將正負(fù)權(quán)重混合量化,加劇誤差累積,難以在超低比特場景下保留模型性能。現(xiàn)有方法雖嘗試通過復(fù)雜碼本初始化緩解問題,但仍無法兼顧量化效率與精度,難以適配端側(cè)設(shè)備的資源約束。
PCDVQ以極性聚類為核心創(chuàng)新點(diǎn),構(gòu)建“極性分離-聚類優(yōu)化-協(xié)同量化”的三級框架,通過三大核心設(shè)計(jì)實(shí)現(xiàn)突破:
核心設(shè)計(jì)一:極性分離編碼(Polar Separation Encoding)。首次將權(quán)重矢量按極性劃分為正、負(fù)兩個(gè)獨(dú)立子集,分別進(jìn)行量化處理,避免正負(fù)權(quán)重混合量化帶來的誤差干擾,同時(shí)保留權(quán)重的極性特征,減少對模型損失函數(shù)的影響,為高精度量化奠定基礎(chǔ)。
核心設(shè)計(jì)二:動態(tài)極性聚類(Dynamic Polar Clustering)?;贙-means聚類算法優(yōu)化碼本生成,針對正負(fù)權(quán)重子集分別學(xué)習(xí)專屬碼本,通過動態(tài)調(diào)整聚類中心,提升碼本利用率,緩解“碼本崩潰”問題;同時(shí)結(jié)合率失真理論,在有限比特預(yù)算下實(shí)現(xiàn)量化誤差最小化。
核心設(shè)計(jì)三:跨極性協(xié)同優(yōu)化(Cross-Polar Cooperative Optimization)。引入?yún)f(xié)同正則化項(xiàng),聯(lián)合優(yōu)化正負(fù)權(quán)重的量化參數(shù),確保量化后模型的權(quán)重分布與浮點(diǎn)模型保持一致,減少極性分離帶來的性能波動,進(jìn)一步提升量化精度。
實(shí)驗(yàn)表明,PCDVQ在主流LLMs上表現(xiàn)卓越,全面超越當(dāng)前SOTA方法:在LLaMA-3-70B模型上,2.25-bit量化時(shí),零樣本平均精度達(dá)71.98%,接近FP16浮點(diǎn)精度;在LLaMA-3-8B模型上,2.25-bit量化的零樣本平均精度較VPTQ提升1.23%;在Mistral-7B模型上,2-bit量化時(shí)的QA平均精度達(dá)64.33%,顯著優(yōu)于GPTQ、AQLM等現(xiàn)有方法,真正實(shí)現(xiàn)“超低比特、高精度、高效率”的量化目標(biāo),為端側(cè)大模型部署提供核心技術(shù)支撐。
文章鏈接:https://arxiv.org/abs/2506.05432
-
人工智能
+關(guān)注
關(guān)注
1817文章
50102瀏覽量
265506 -
后摩智能
+關(guān)注
關(guān)注
0文章
52瀏覽量
1711 -
大模型
+關(guān)注
關(guān)注
2文章
3651瀏覽量
5191
原文標(biāo)題:后摩前沿丨后摩智能4篇論文入選人工智能頂會ICLR 2026,持續(xù)突破大模型端側(cè)部署核心技術(shù)瓶頸
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
西井科技攜手同濟(jì)大學(xué) 三篇AI研究成果入選頂會ICLR 2026
后摩智能斬獲多項(xiàng)人工智能行業(yè)大獎
后摩智能亮相ASP-DAC 2026亞洲及南太平洋設(shè)計(jì)自動化會議
主線科技入選“人工智能+”創(chuàng)新應(yīng)用實(shí)踐案例
軟通動力與北京智源人工智能研究院達(dá)成生態(tài)合作
小鵬汽車與北京大學(xué)研究論文成功入選AAAI 2026
維智科技入選2025中國科創(chuàng)好公司人工智能榜單
MediaTek多篇論文入選全球前沿國際學(xué)術(shù)會議
后摩智能六篇論文入選四大國際頂會
理想汽車12篇論文入選全球五大AI頂會
后摩智能4篇論文入選人工智能頂會ICLR 2026
評論