91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存儲(chǔ)芯片閃崩!谷歌發(fā)布新算法,AI內(nèi)存占用只需原來(lái)1/6?

Hobby觀察 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2026-03-27 13:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)又一“Deepseek時(shí)刻”來(lái)了?谷歌在3月24日發(fā)布了一項(xiàng)名為T(mén)urboQuant的先進(jìn)向量量化壓縮算法,旨在解決大語(yǔ)言模型和向量搜索引擎中的內(nèi)存瓶頸問(wèn)題,令KV Cache內(nèi)存占用降低至原來(lái)的1/6且?guī)缀鯚o(wú)精度損失。

隨后在當(dāng)?shù)貢r(shí)間3月25日,美光科技開(kāi)盤(pán)最高跌幅超6%,收盤(pán)跌3.4%,四天累計(jì)跌幅超過(guò)13%;閃迪當(dāng)天收跌3.5%;3月26日三星電子跌近5%,SK海力士跌超6%。

而這一輪存儲(chǔ)股價(jià)下跌,谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI對(duì)內(nèi)存的需求?

根據(jù)Google Research在官網(wǎng)發(fā)布的技術(shù)資料,TurboQuant是通過(guò)解決高維向量處理中的內(nèi)存瓶頸,在不損失精度的前提下,提升大語(yǔ)言模型和向量搜索引擎的效率,讓大型AI系統(tǒng)運(yùn)行得更快、更省錢(qián)。

在計(jì)算力領(lǐng)域中,“量化”通常是指數(shù)據(jù)從高精度轉(zhuǎn)換為低精度的過(guò)程,其核心目的在于通過(guò)犧牲極微小的數(shù)值精度,換取顯著的存儲(chǔ)空間節(jié)省與計(jì)算效率提升。低精度意味著對(duì)內(nèi)存占用空間更小,以節(jié)省GPU以及AI芯片上DRAM(主要是HBM)用量。

舉個(gè)例子,比如一張照片中可能有數(shù)百萬(wàn)種顏色,如果要完整記錄下來(lái),每一種顏色都需要用不同的數(shù)字來(lái)記錄下來(lái),那么這就會(huì)產(chǎn)生大量數(shù)據(jù),非常占內(nèi)存。那么經(jīng)過(guò)量化后,可以指定這張照片只能使用16種顏色,此前的數(shù)百萬(wàn)種顏色各自取這16種顏色中最接近的一種來(lái)進(jìn)行存儲(chǔ),盡管丟失了顏色精度,但圖片依然保留了大致的畫(huà)面信息,同時(shí)圖片體積也大幅縮小。

而在大語(yǔ)言模型中,在對(duì)話過(guò)程中,模型推理產(chǎn)生的對(duì)話記憶則存儲(chǔ)在KV Cache中。雖然 KV Cache 極大地加快了生成速度,但它帶來(lái)了嚴(yán)重的內(nèi)存挑戰(zhàn),KV Cache的大小隨著對(duì)話長(zhǎng)度線性增長(zhǎng),對(duì)話越長(zhǎng),占用的顯存就越多。

這也是很多模型有所謂的“上下文限制”的原因,限制的背后是顯存不夠用了。因此一般也會(huì)用到量化的方式對(duì)KV Cache進(jìn)行壓縮,比如從FP16(16位浮點(diǎn)數(shù))的精度壓縮到INT4(4位整數(shù))。

那么TurboQuant,實(shí)際上就是針對(duì)這里的KV Cache進(jìn)行了極致壓縮。傳統(tǒng)的量化技術(shù)雖然能減少數(shù)據(jù)大小,但往往需要為每個(gè)小數(shù)據(jù)塊計(jì)算并存儲(chǔ)額外的“量化常數(shù)”(如縮放因子),這會(huì)產(chǎn)生額外的內(nèi)存開(kāi)銷(xiāo),抵消了量化帶來(lái)的好處。就好比你創(chuàng)造了一種暗號(hào),那么為了讀懂這個(gè)暗號(hào),還需要一個(gè)對(duì)照表來(lái)進(jìn)行解密,同時(shí)就需要額外的存儲(chǔ)空間去收納這個(gè)對(duì)照表。

TurboQuant解決的其中一個(gè)問(wèn)題就是“對(duì)照表”帶來(lái)的額外內(nèi)存開(kāi)銷(xiāo)。TurboQuant利用PolarQuant技術(shù),改變了傳統(tǒng)的笛卡爾坐標(biāo)(X, Y, Z)視角,將向量轉(zhuǎn)換為極坐標(biāo)(半徑和角度)。由于角度分布在數(shù)學(xué)上是可預(yù)測(cè)且集中的,更適合數(shù)據(jù)壓縮,模型不再需要存儲(chǔ)昂貴的數(shù)據(jù)歸一化參數(shù),從而消除了內(nèi)存開(kāi)銷(xiāo)。

另外一項(xiàng)核心的技術(shù)是QJL(Quantized Johnson-Lindenstrauss),這是一種基于Johnson-Lindenstrauss 變換的壓縮方式。將向量壓縮到僅用符號(hào)位(+1 或 -1)的1-bit表示,同時(shí)保留向量間的距離關(guān)系。通過(guò)一個(gè)專(zhuān)門(mén)的估計(jì)器來(lái)準(zhǔn)確計(jì)算注意力分?jǐn)?shù),并用極少的 1-bit殘差壓縮消除隱藏誤差,實(shí)現(xiàn)零內(nèi)存開(kāi)銷(xiāo)的壓縮。

最終,評(píng)估結(jié)果顯示,通過(guò)TurboQuant可以將LLM的 KV cache 壓縮到3-bit,內(nèi)存占用至少減少6倍,而模型準(zhǔn)確性零損失。

在4-bit模式下,在英偉達(dá)H100 GPU上,注意力logit 計(jì)算速度可比32-bit未量化版本快8倍,整體推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等長(zhǎng)文本基準(zhǔn)測(cè)試中,表現(xiàn)接近無(wú)損。在相同的內(nèi)存占用下,向量搜索的召回率(recall)也優(yōu)于傳統(tǒng)方法如 PQ、KIVI 等。

值得一提的是,Google Research表示,它可以直接應(yīng)用到現(xiàn)有的開(kāi)源模型中,不需要重新訓(xùn)練或微調(diào)。這項(xiàng)技術(shù)也非常適用于邊緣AI設(shè)備,包括智能手機(jī)等DRAM有限的設(shè)備中高效運(yùn)行LLM;同時(shí)能夠大幅提升LLM的長(zhǎng)上下文能力,讓LLM擁有更長(zhǎng)久的記憶。

總體來(lái)說(shuō),TurboQuant有望推動(dòng)LLM在更多智能硬件上的部署和應(yīng)用,助力AI硬件的創(chuàng)新。

又一個(gè)“deepseek時(shí)刻”?

對(duì)于內(nèi)存開(kāi)銷(xiāo)需求的大幅降低,很容易讓人將TurboQuant與2025年初Deepseek R1的發(fā)布聯(lián)想起來(lái)。因?yàn)镈eepseek R1的目標(biāo)同樣是在更少的硬件資源下保證LLM的高性能,通過(guò)引入MLA架構(gòu)和優(yōu)化訓(xùn)練策略等創(chuàng)新降低了算力硬件上的需求;TurboQuant則同樣是通過(guò)極致的壓縮算法來(lái)減少緩存,降低了對(duì)內(nèi)存的需求。

但另一方面,從deepseek R1推出一年后的今天來(lái)看,實(shí)際上這種提高硬件利用效率的技術(shù),并不意味著算力硬件就不再重要。反而這些技術(shù)是更多推動(dòng)了應(yīng)用層面的落地,硬件利用率高意味著LLM的訓(xùn)練和推理成本降低,能夠吸引更多應(yīng)用端的開(kāi)發(fā)和商業(yè)落地。

實(shí)際上,存儲(chǔ)需求確實(shí)仍在不斷高漲,產(chǎn)能擴(kuò)張也在持續(xù)加速。韓國(guó)金融監(jiān)督院近日披露,三星和SK海力士?jī)纱蟠鎯?chǔ)巨頭在中國(guó)投資總額超過(guò)1.5萬(wàn)億韓元,同比大幅增長(zhǎng)。

2025年,三星電子在西安工廠投資4654億韓元用于擴(kuò)產(chǎn),這一數(shù)字相比2024年大幅增長(zhǎng)67.5%。西安工廠是三星電子在海外的唯一NAND Flash生產(chǎn)基地,產(chǎn)量約占三星總產(chǎn)量的40%左右。

據(jù)了解,自2020年開(kāi)始到2023年,三星電子都沒(méi)有對(duì)西安工廠進(jìn)行任何大規(guī)模投資,但從2024年恢復(fù)了投資計(jì)劃,開(kāi)始升級(jí)產(chǎn)線擴(kuò)大產(chǎn)能。三星電子目前計(jì)劃將其西安NAND芯片廠的制造工藝從128層(第六代)升級(jí)為236層(第八代)。

有韓國(guó)官員稱(chēng),為了防止國(guó)家核心技術(shù)的泄露,海外工廠與韓國(guó)工廠在技術(shù)發(fā)展上會(huì)保持大約兩代產(chǎn)品的差距?!坝捎谌怯?jì)劃在今年在韓國(guó)生產(chǎn)第4代(10代)NAND產(chǎn)品,因此中國(guó)工廠向第8代技術(shù)升級(jí)的進(jìn)程很可能會(huì)加快?!?br />
而SK海力士2025年在無(wú)錫DRAM工廠和大連NAND Flash工廠共投入了超過(guò)1萬(wàn)億韓元,其中無(wú)錫的DRAM工廠上的投資達(dá)到了5810億韓元,比2024年的2873億韓元增加了102%;而在大連的NAND閃存工廠上的投資則為4406億韓元,同比增長(zhǎng)了52%。這是自2022年SK海力士收購(gòu)英特爾在大連的NAND閃存工廠以來(lái),該公司首次在中國(guó)工廠上進(jìn)行規(guī)模達(dá)萬(wàn)億韓元的投資。

類(lèi)似地,SK海力士也將其位于無(wú)錫的工廠中DRAM的生產(chǎn)工藝從10納米級(jí)的第三代(1z)工藝升級(jí)到了第四代(1a)工藝,未來(lái)可以大規(guī)模生產(chǎn)DDR5內(nèi)存芯片。

因此,從存儲(chǔ)廠商的擴(kuò)產(chǎn)動(dòng)作來(lái)看,存儲(chǔ)需求并不會(huì)因?yàn)長(zhǎng)LM算法和架構(gòu)的迭代而有所降低,反之,算法和架構(gòu)層面的創(chuàng)新,將幫助LLM的使用成本降低,從而加速在更多領(lǐng)域中的應(yīng)用落地。

小結(jié):

過(guò)去存儲(chǔ)和算力是端側(cè)AI硬件落地的最大門(mén)檻之一,在先進(jìn)制程進(jìn)入2nm時(shí)代后,內(nèi)存成為了端側(cè)AI的顯著障礙,因此能降低內(nèi)存需求的TurboQuant對(duì)于端側(cè)AI硬件的意義更為重大。歷史表明,算法效率提升往往能夠降低應(yīng)用門(mén)檻,刺激需求增長(zhǎng)而非抑制硬件需求,未來(lái)存儲(chǔ)產(chǎn)業(yè)在AI效率革命與應(yīng)用爆發(fā)的雙輪驅(qū)動(dòng)下,也將繼續(xù)狂飆。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6255

    瀏覽量

    111672
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40384

    瀏覽量

    301959
  • 存儲(chǔ)芯片
    +關(guān)注

    關(guān)注

    11

    文章

    1041

    瀏覽量

    44845
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    成都匯陽(yáng)投資關(guān)于AI 算力引爆需求,存儲(chǔ)芯片漲價(jià)周期來(lái)襲

    AI 算力黑洞來(lái)襲 ,存儲(chǔ)需求呈爆炸式增長(zhǎng) AI算力基礎(chǔ)設(shè)施的爆發(fā)成為存儲(chǔ)芯片需求的核心驅(qū)動(dòng)力,單臺(tái) AI服務(wù)器 DRAM 用量是普通服務(wù)器
    的頭像 發(fā)表于 03-27 17:12 ?35次閱讀

    什么是DRAM存儲(chǔ)芯片

    在現(xiàn)代存儲(chǔ)芯片領(lǐng)域中,主要有兩大類(lèi)型占據(jù)市場(chǎng)主導(dǎo):DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)和NAND閃存。二者合計(jì)占據(jù)了全球存儲(chǔ)芯片市場(chǎng)的95%以上份額,其他存儲(chǔ)類(lèi)型則多用于特定或輔助場(chǎng)景。
    的頭像 發(fā)表于 01-13 16:52 ?1534次閱讀

    剖析存儲(chǔ)芯片及技術(shù)在AI領(lǐng)域的應(yīng)用

    。在此背景下,深入理解驅(qū)動(dòng) AI 革命的存儲(chǔ)技術(shù)變得至關(guān)重要。本文將系統(tǒng)梳理與 AI 緊密相關(guān)的核心存儲(chǔ)芯片及技術(shù),剖析它們?nèi)绾卧诓煌瑘?chǎng)景下支撐起智能計(jì)算的海量數(shù)據(jù)需求。
    的頭像 發(fā)表于 12-29 15:24 ?2830次閱讀
    剖析<b class='flag-5'>存儲(chǔ)芯片</b>及技術(shù)在<b class='flag-5'>AI</b>領(lǐng)域的應(yīng)用

    近期熱瘋了都在收內(nèi)存芯片,囤存儲(chǔ)芯片風(fēng)險(xiǎn)點(diǎn)有這些?

    存儲(chǔ)芯片
    芯廣場(chǎng)
    發(fā)布于 :2025年11月28日 11:27:22

    存儲(chǔ)芯片(煥發(fā)生機(jī))

    ,都屬于集成電路里的核心成員。要是按“斷電后數(shù)據(jù)能不能留在器件里”來(lái)分,存儲(chǔ)芯片能分成易失性和非易失性?xún)煞N。易失性存儲(chǔ)芯片就像電腦的內(nèi)存(像SRAM、DRAM這類(lèi)
    的頭像 發(fā)表于 11-17 16:35 ?3606次閱讀
    <b class='flag-5'>存儲(chǔ)芯片</b>(煥發(fā)生機(jī))

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    、現(xiàn)階段更智能、更接近AGI的6算法與模型 1、MoE模型 MoE模型作為T(mén)ransfomer模型的后繼者,代表著AI技術(shù)的一項(xiàng)重大創(chuàng)新和發(fā)展。 優(yōu)勢(shì): 在于能處理龐大的參數(shù)規(guī)模,顯
    發(fā)表于 09-18 15:31

    半導(dǎo)體存儲(chǔ)芯片核心解析

    CPU、內(nèi)存和加速器,可能改變內(nèi)存池化、共享的架構(gòu)。 國(guó)產(chǎn)化:中國(guó)在存儲(chǔ)芯片領(lǐng)域(尤其是DRAM和NAND)投入巨大,長(zhǎng)江存儲(chǔ)(NAND)和長(zhǎng)鑫
    發(fā)表于 06-24 09:09

    請(qǐng)問(wèn)STM32N6 cubeAI部署時(shí)用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時(shí)候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-09 06:19

    劃片機(jī)在存儲(chǔ)芯片制造中的應(yīng)用

    劃片機(jī)(DicingSaw)在半導(dǎo)體制造中主要用于將晶圓切割成單個(gè)芯片(Die),這一過(guò)程在內(nèi)存儲(chǔ)存卡(如NAND閃存芯片、SSD、SD卡等)的生產(chǎn)中至關(guān)重要。以下是劃片機(jī)在存儲(chǔ)芯片
    的頭像 發(fā)表于 06-03 18:11 ?1368次閱讀
    劃片機(jī)在<b class='flag-5'>存儲(chǔ)芯片</b>制造中的應(yīng)用

    請(qǐng)問(wèn)STM32N6 cubeAI部署時(shí)用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時(shí)候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-03 12:13

    請(qǐng)問(wèn)STM32N6 cubeAI部署時(shí)用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時(shí)候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 04-28 08:25

    DeepSeek與存儲(chǔ)芯片AI眼鏡注入新動(dòng)能

    在人工智能技術(shù)飛速發(fā)展的2025年,AI眼鏡正從科幻概念走向現(xiàn)實(shí)生活。而這一進(jìn)程中,國(guó)產(chǎn)大模型DeepSeek與存儲(chǔ)芯片技術(shù)的協(xié)同創(chuàng)新,正在為智能眼鏡的智能化、輕量化與實(shí)用化注入新動(dòng)能。本文將從技術(shù)突破、產(chǎn)業(yè)鏈聯(lián)動(dòng)與未來(lái)趨勢(shì)三個(gè)維度,解析這三者的深度關(guān)聯(lián)。
    的頭像 發(fā)表于 04-14 09:44 ?1549次閱讀