韩国无码,一区二区黄色片,亚洲AAAA级黄毛片,黄色网址在线观看播放

繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認(rèn)可后，后摩智能再傳捷報(bào)——4篇論文成功入選國際頂級人工智能會議ICLR 2026（International Conference on Learning Representations），聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項(xiàng)量化等端側(cè)部署關(guān)鍵技術(shù)，提出多項(xiàng)創(chuàng)新性解決方案，進(jìn)一步夯實(shí)后摩智能在端側(cè)AI芯片與算法融合領(lǐng)域的技術(shù)壁壘，助力大模型在資源受限設(shè)備上實(shí)現(xiàn)高精度、高效率落地。

01【ICLR-2026】NLI：非均勻線性插值LUT

后摩智能芯片算法團(tuán)隊(duì)和東南大學(xué)聯(lián)合提出非均勻線性插值方法NLI（Non-Uniform Interpolation LUT），并設(shè)計(jì)配套的NLI Engine硬件模塊，攻克了大語言模型中非線性算子（如EXP、Rsqrt）在端側(cè)部署時(shí)“精度與效率不可兼得”的難題，通過動態(tài)規(guī)劃優(yōu)化插值節(jié)點(diǎn)布局，實(shí)現(xiàn)非線性函數(shù)的高效近似，大幅降低硬件資源開銷，適配各類端側(cè)NPU平臺。相關(guān)研究成果已應(yīng)用于后摩智能端側(cè)AI芯片的非線性計(jì)算單元設(shè)計(jì)。

非線性算子是LLMs推理過程中的核心組件，直接影響模型精度，但這類算子計(jì)算復(fù)雜，在端側(cè)資源受限設(shè)備上難以高效部署。現(xiàn)有解決方案主要分為兩類：一是基于神經(jīng)網(wǎng)絡(luò)的LUT擬合（如NN-LUT），但泛化能力差，易出現(xiàn)精度驟降；二是均勻插值LUT方法，無法適配非線性函數(shù)的曲率差異，高曲率區(qū)域誤差過大，且硬件實(shí)現(xiàn)需大量比較器，資源開銷高。這些問題嚴(yán)重制約了LLMs在端側(cè)的實(shí)時(shí)推理性能。

NLI以“數(shù)據(jù)無關(guān)、全局最優(yōu)、硬件友好”為核心目標(biāo)，通過兩大核心創(chuàng)新實(shí)現(xiàn)突破，同時(shí)配套硬件模塊優(yōu)化，形成“算法-硬件”協(xié)同解決方案：

核心創(chuàng)新一：動態(tài)規(guī)劃非均勻節(jié)點(diǎn)布局（DP-based Non-Uniform Cutpoint Placement）。將插值節(jié)點(diǎn)（cutpoints）選擇問題轉(zhuǎn)化為動態(tài)規(guī)劃問題，在固定節(jié)點(diǎn)預(yù)算下，基于FP16數(shù)值范圍的曲率特征，全局優(yōu)化節(jié)點(diǎn)分布，在高曲率區(qū)域密集布局節(jié)點(diǎn)，低曲率區(qū)域精簡節(jié)點(diǎn)，既保證近似精度，又減少節(jié)點(diǎn)數(shù)量，避免資源浪費(fèi)；同時(shí)無需數(shù)據(jù)校準(zhǔn)，適配各類非線性算子，泛化能力極強(qiáng)。

核心創(chuàng)新二：兩級地址翻譯計(jì)算策略（Two-Level Address Translation）。設(shè)計(jì)“宏區(qū)間-微區(qū)間”兩級布局，將全局節(jié)點(diǎn)劃分為10個(gè)宏區(qū)間，中間8個(gè)宏區(qū)間再細(xì)分為32個(gè)微區(qū)間，僅需10個(gè)比較器即可完成地址定位，相比傳統(tǒng)均勻插值方法（需259個(gè)比較器），大幅降低硬件開銷；同時(shí)預(yù)計(jì)算插值系數(shù)，通過簡單乘加運(yùn)算完成線性插值，兼顧效率與精度。

核心創(chuàng)新三：NLI Engine硬件模塊。NLI Engine采用四級流水線設(shè)計(jì)，適配1GHz時(shí)鐘頻率，集成LUT存儲、兩級地址翻譯、線性插值計(jì)算等功能，可直接作為 plug-and-play 模塊集成到端側(cè)NPU中。實(shí)驗(yàn)表明，NLI在各項(xiàng)指標(biāo)上全面超越現(xiàn)有SOTA方法：

軟件層面：在LLaMA3、Qwen2.5等系列大模型上，替換非線性算子后，零樣本精度、困惑度（PPL）與FP32浮點(diǎn)模型基本一致，最壞-case誤差低于1.2×10?3，超越NN-LUT等方法；硬件層面：NLI Engine相比NN-LUT、RI-LUT硬件模塊，面積分別節(jié)省68%、69%，功耗降低26%、29%，效率提升4.02×、4.29×，且吞吐量保持1GHz，完美適配端側(cè)資源受限場景，為LLMs端側(cè)實(shí)時(shí)推理提供核心計(jì)算支撐。

文章鏈接：https://arxiv.org/abs/2602.02988

02【ICLR-2026】SAES-SVD：自適應(yīng)誤差抑制SVD

后摩智能芯片算法團(tuán)隊(duì)提出自適應(yīng)誤差抑制低秩壓縮框架SAES-SVD（Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression），創(chuàng)新性地將累積誤差補(bǔ)償與自適應(yīng)權(quán)重優(yōu)化融入SVD低秩分解，攻克了傳統(tǒng)低秩壓縮方法中“層間誤差累積、精度持續(xù)下降”的核心痛點(diǎn)，無需微調(diào)或混合秩策略，即可實(shí)現(xiàn)大模型高效壓縮與高精度保留，為端側(cè)大模型的參數(shù)壓縮部署提供全新解決方案。

低秩壓縮（基于SVD）是大模型端側(cè)部署的關(guān)鍵技術(shù)之一，具有硬件無關(guān)、兼容性強(qiáng)的優(yōu)勢，已被廣泛應(yīng)用于LLMs壓縮。但現(xiàn)有SVD-based方法（如ASVD、SVD-LLM）均采用“逐層獨(dú)立優(yōu)化”策略，僅關(guān)注單一層級的重構(gòu)誤差最小化，忽視了壓縮誤差的層間傳播與累積——上游層的微小重構(gòu)誤差，會隨著網(wǎng)絡(luò)深度增加不斷放大，導(dǎo)致下游層輸入分布偏移，最終使模型輸出與浮點(diǎn)基線偏差顯著，難以滿足端側(cè)部署的精度要求。

SAES-SVD通過兩大核心模塊協(xié)同工作，實(shí)現(xiàn)“局部誤差抑制+全局誤差補(bǔ)償”，徹底解決誤差累積問題：

核心模塊一：累積誤差感知層壓縮（CEALC）。打破逐層獨(dú)立優(yōu)化的局限，將壓縮目標(biāo)定義為“局部重構(gòu)誤差+累積誤差補(bǔ)償”的加權(quán)組合，不僅最小化當(dāng)前層的輸出重構(gòu)誤差，還通過對齊當(dāng)前層與浮點(diǎn)模型的輸出，補(bǔ)償上游層傳播的累積誤差；基于二階激活統(tǒng)計(jì)量（輸入?yún)f(xié)方差、差分協(xié)方差）推導(dǎo)閉解，無需存儲海量原始激活數(shù)據(jù)，大幅降低內(nèi)存開銷，同時(shí)保證優(yōu)化效率。

核心模塊二：自適應(yīng)協(xié)同誤差抑制（ACES）。針對不同層對累積誤差的敏感度差異，引入自適應(yīng)加權(quán)系數(shù)，通過最大化低秩子空間的能量保留率（RER），動態(tài)調(diào)整累積誤差補(bǔ)償?shù)膹?qiáng)度——對高敏感度層增強(qiáng)補(bǔ)償，對低敏感度層精簡資源，確保在固定秩預(yù)算下，保留模型關(guān)鍵信息，提升壓縮效率，避免過度補(bǔ)償導(dǎo)致的資源浪費(fèi)。

實(shí)驗(yàn)表明，SAES-SVD在各類LLMs上表現(xiàn)優(yōu)異，優(yōu)勢顯著：在LLaMA-3-8B模型上，壓縮比為0.2時(shí)，相比傳統(tǒng)SVD-LLM，輸出與浮點(diǎn)模型的余弦相似度從0.79提升至0.95以上，有效抑制誤差累積；在LLaMA-7B模型上，0.2壓縮比下，零樣本精度下降僅0.02，遠(yuǎn)低于現(xiàn)有方法。無需任何微調(diào)或混合秩策略，即可實(shí)現(xiàn)“高壓縮比、高精度、低開銷”，為端側(cè)大模型低秩壓縮提供全新范式。

文章鏈接：https://arxiv.org/abs/2602.03051

03【ICLR-2026】KBVQ-MoE：面向MoE大模型的KLT引導(dǎo)SVD與偏置校正矢量量化方法

后摩智能芯片算法團(tuán)隊(duì)提出面向混合專家（MoE）大語言模型的矢量量化框架KBVQ-MoE（KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs），創(chuàng)新性地融合KLT變換、SVD低秩分解與偏置校正技術(shù)，專門解決MoE架構(gòu)量化中“專家間冗余浪費(fèi)碼本、量化誤差累積導(dǎo)致分布偏移”的核心痛點(diǎn)，實(shí)現(xiàn)MoE大模型超低比特量化下的高精度保留與高效部署，填補(bǔ)了現(xiàn)有MoE量化方法缺乏輸入驅(qū)動協(xié)同優(yōu)化機(jī)制的空白，相關(guān)成果可直接適配端側(cè)資源受限設(shè)備的MoE大模型部署需求。

MoE大模型憑借“專家分工、稀疏激活”的特性，在參數(shù)規(guī)模與推理效率間實(shí)現(xiàn)平衡，成為端側(cè)部署的重要選擇，但現(xiàn)有MoE量化方法存在明顯局限：多數(shù)方法未整合輸入激活的統(tǒng)計(jì)特征，既無法充分利用專家間共享的輸入相關(guān)共性模式，也未能針對性校正專家量化誤差導(dǎo)致的分布偏移，在高壓縮比場景下難以平衡模型精度與部署效率，無法適配端側(cè)設(shè)備的存儲與計(jì)算約束。

KBVQ-MoE以“輸入驅(qū)動去冗余、偏置校正穩(wěn)輸出”為核心，構(gòu)建兩大關(guān)鍵模塊協(xié)同工作的完整框架，形成“預(yù)處理-量化-后處理”的全流程優(yōu)化方案，同時(shí)兼顧算法創(chuàng)新性與端側(cè)硬件適配性：

核心模塊一：輸入驅(qū)動冗余消除（IDRE）?；谳斎爰せ畹慕y(tǒng)計(jì)特征，通過KLT變換構(gòu)建輸入相干空間，將所有專家的權(quán)重矩陣投影至該空間，實(shí)現(xiàn)權(quán)重結(jié)構(gòu)與輸入特征的精準(zhǔn)對齊；隨后通過SVD分解提取專家間的共享主導(dǎo)分量并保留全精度，僅對專家專屬的非冗余分量進(jìn)行量化，大幅降低冗余信息對碼本的占用，提升量化效率。該模塊通過三步實(shí)現(xiàn)冗余消除：一是對輸入激活進(jìn)行KLT分解，構(gòu)建基于輸入能量排序的正交相干基；二是將專家權(quán)重投影至該相干空間，建立權(quán)重與輸入特征的直接關(guān)聯(lián)；三是通過SVD分解分離共享分量與專家專屬分量，共享分量全精度保留，專屬分量用于后續(xù)量化。

核心模塊二：偏置校正輸出穩(wěn)定（BCOS）。針對專家專屬分量量化后產(chǎn)生的累積偏置，設(shè)計(jì)通道級仿射補(bǔ)償機(jī)制，通過對齊量化輸出與全精度輸出的均值和方差，抑制量化誤差導(dǎo)致的分布偏移，確保模型輸出穩(wěn)定性。具體而言，先對專家專屬分量進(jìn)行矢量量化，再引入通道級縮放因子與偏置項(xiàng)，基于最小均方誤差（MMSE）準(zhǔn)則優(yōu)化參數(shù)，僅增加少量額外參數(shù)（每一層2倍輸出通道數(shù)），即可實(shí)現(xiàn)低開銷的偏置校正，避免誤差在專家聚合過程中被放大。

實(shí)驗(yàn)表明，KBVQ-MoE在主流MoE大模型上表現(xiàn)遠(yuǎn)超現(xiàn)有SOTA方法，適配端側(cè)超低比特部署場景：在Qwen3-30B-A3B、Mixtral-8x7B等模型上，2-3bit量化時(shí)，零樣本平均精度接近FP16全精度，其中Mixtral-8x7B在3bit量化下，WikiText2數(shù)據(jù)集上的困惑度（PPL）低至4.07，與全精度模型僅相差0.19；相比GPTQ、MoEQuant等現(xiàn)有方法，KBVQ-MoE在2bit量化時(shí)，Qwen3-30B-A3B的平均精度提升10個(gè)百分點(diǎn)以上，困惑度降低近6個(gè)點(diǎn)。同時(shí)，該框架可作為通用插件，與現(xiàn)有矢量量化方法（如GPTVQ、VPTQ）集成，進(jìn)一步提升其性能，在Qwen1.5-MoE-A2.7B模型上，與GPTVQ集成后3bit量化的困惑度提升近30%。

在端側(cè)部署適配性上，KBVQ-MoE無需修改MoE模型的專家結(jié)構(gòu)與路由機(jī)制，量化后模型推理速度較全精度模型提升1.5-1.6倍，僅增加可忽略的計(jì)算與存儲開銷，完美適配后摩智能端側(cè)AI芯片架構(gòu)，可廣泛應(yīng)用于車載、嵌入式、邊緣設(shè)備等資源受限場景，為MoE大模型的端側(cè)規(guī)?；渴鹛峁┖诵募夹g(shù)支撐。

文章鏈接：https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf

04【ICLR-2026】PCDVQ：基于極性聚類的矢量量化

后摩智能芯片算法團(tuán)隊(duì)提出極性聚類矢量量化框架PCDVQ（Polar Clustering Vector Quantization），創(chuàng)新性地將極性聚類與矢量量化深度結(jié)合，攻克了大語言模型（LLMs）超低比特量化中碼本利用率低、精度損失顯著的核心痛點(diǎn)，為LLMs在邊緣設(shè)備、嵌入式終端的極致壓縮部署提供了高效解決方案。

隨著LLMs參數(shù)規(guī)模持續(xù)擴(kuò)大，超低比特（2-bit及以下）量化成為實(shí)現(xiàn)端側(cè)部署的關(guān)鍵手段，但傳統(tǒng)矢量量化方法存在兩大核心瓶頸：一是碼本學(xué)習(xí)過程中易出現(xiàn)“碼本崩潰”，部分碼本長期閑置，導(dǎo)致量化精度下降；二是忽視權(quán)重極性特征，將正負(fù)權(quán)重混合量化，加劇誤差累積，難以在超低比特場景下保留模型性能。現(xiàn)有方法雖嘗試通過復(fù)雜碼本初始化緩解問題，但仍無法兼顧量化效率與精度，難以適配端側(cè)設(shè)備的資源約束。

PCDVQ以極性聚類為核心創(chuàng)新點(diǎn)，構(gòu)建“極性分離-聚類優(yōu)化-協(xié)同量化”的三級框架，通過三大核心設(shè)計(jì)實(shí)現(xiàn)突破：

核心設(shè)計(jì)一：極性分離編碼（Polar Separation Encoding）。首次將權(quán)重矢量按極性劃分為正、負(fù)兩個(gè)獨(dú)立子集，分別進(jìn)行量化處理，避免正負(fù)權(quán)重混合量化帶來的誤差干擾，同時(shí)保留權(quán)重的極性特征，減少對模型損失函數(shù)的影響，為高精度量化奠定基礎(chǔ)。

核心設(shè)計(jì)二：動態(tài)極性聚類（Dynamic Polar Clustering）?；贙-means聚類算法優(yōu)化碼本生成，針對正負(fù)權(quán)重子集分別學(xué)習(xí)專屬碼本，通過動態(tài)調(diào)整聚類中心，提升碼本利用率，緩解“碼本崩潰”問題；同時(shí)結(jié)合率失真理論，在有限比特預(yù)算下實(shí)現(xiàn)量化誤差最小化。

核心設(shè)計(jì)三：跨極性協(xié)同優(yōu)化（Cross-Polar Cooperative Optimization）。引入?yún)f(xié)同正則化項(xiàng)，聯(lián)合優(yōu)化正負(fù)權(quán)重的量化參數(shù)，確保量化后模型的權(quán)重分布與浮點(diǎn)模型保持一致，減少極性分離帶來的性能波動，進(jìn)一步提升量化精度。

實(shí)驗(yàn)表明，PCDVQ在主流LLMs上表現(xiàn)卓越，全面超越當(dāng)前SOTA方法：在LLaMA-3-70B模型上，2.25-bit量化時(shí)，零樣本平均精度達(dá)71.98%，接近FP16浮點(diǎn)精度；在LLaMA-3-8B模型上，2.25-bit量化的零樣本平均精度較VPTQ提升1.23%；在Mistral-7B模型上，2-bit量化時(shí)的QA平均精度達(dá)64.33%，顯著優(yōu)于GPTQ、AQLM等現(xiàn)有方法，真正實(shí)現(xiàn)“超低比特、高精度、高效率”的量化目標(biāo)，為端側(cè)大模型部署提供核心技術(shù)支撐。

文章鏈接：https://arxiv.org/abs/2506.05432

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50102

瀏覽量
265506
后摩智能

后摩智能

+關(guān)注

關(guān)注
0

文章
52

瀏覽量
1711
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3651

瀏覽量
5191

原文標(biāo)題：后摩前沿丨后摩智能4篇論文入選人工智能頂會ICLR 2026，持續(xù)突破大模型端側(cè)部署核心技術(shù)瓶頸

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

后摩智能4篇論文入選人工智能頂會ICLR 2026

評論