91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm KleidiAI與XNNPack集成實(shí)現(xiàn)AI性能提升

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-08-08 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 工程部首席軟件工程師 Gian Marco Iodice

自 Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優(yōu)化的軟件庫(kù),旨在加速 Arm CPU 上的人工智能 (AI) 推理。在過去一年中,從推出 INT4 矩陣乘法 (matmul) 優(yōu)化以增強(qiáng) Google Gemma 2 模型性能開始,到后續(xù)完成多項(xiàng)底層技術(shù)增強(qiáng),Arm 在 XNNPack 上實(shí)現(xiàn)了顯著的性能提升。

而更值得注意的是,開發(fā)者對(duì)此無(wú)需做任何改動(dòng)。所有這些提升均實(shí)現(xiàn)了完全透明化,既不用修改代碼,也無(wú)需額外的依賴項(xiàng)。只需像往常一樣基于 XNNPack 構(gòu)建并運(yùn)行應(yīng)用,就能自動(dòng)享受到 Arm 通過 KleidiAI 引入的最新底層優(yōu)化。

本文就將為你詳細(xì)介紹最新的增強(qiáng)功能。

XNNPack 中的最新 KleidiAI 優(yōu)化

面向 SDOT 和 i8mm 的 F32 x INT8 矩陣乘法

在先前 INT4 優(yōu)化基礎(chǔ)上,此次優(yōu)化聚焦于通過動(dòng)態(tài)量化加速 INT8 矩陣乘法,拓寬性能提升的覆蓋范圍,以支持各類 AI 模型。從卷積神經(jīng)網(wǎng)絡(luò)到前沿的生成式 AI 模型(例如 2025 年 5 月發(fā)布的 Stable Audio Open Small),這項(xiàng)優(yōu)化帶來(lái)了切實(shí)可見的性能提升。例如,該優(yōu)化使擴(kuò)散模塊 (diffusion module) 的性能提升了 30% 以上。

與此前的 INT4 增強(qiáng)功能一樣,INT8 優(yōu)化借助 SDOT 指令和 i8mm 指令,在各類 CPU 上提升了動(dòng)態(tài)量化性能。

面向 F32、F16 和 INT8 矩陣乘法的 SME2 優(yōu)化

近期最令人振奮的進(jìn)展之一,是 Armv9 架構(gòu)上對(duì)可伸縮矩陣擴(kuò)展 (SME2)的支持。這為 F32 (Float32)、F16 (Float16) 和 INT8 矩陣乘法帶來(lái)了顯著的性能躍升,為新的高性能應(yīng)用鋪平道路。因此,無(wú)論是對(duì)于當(dāng)前還是未來(lái)的 AI 工作負(fù)載,都能從一開始實(shí)現(xiàn)無(wú)縫加速,且無(wú)需任何額外投入。

什么是 SME2?

SME2 是 Armv9-A CPU 架構(gòu)中引入的一項(xiàng)全新 Arm 技術(shù)。SME2 基于可伸縮向量擴(kuò)展 (SVE2) 技術(shù)構(gòu)建,并通過可惠及 AI、計(jì)算機(jī)視覺、線性代數(shù)等多個(gè)領(lǐng)域的特性拓展了其應(yīng)用范圍。

SME2 的一項(xiàng)突出特性是矩陣外積累加 (Matrix Outer Product Accumulate, MOPA) 指令,該指令能夠?qū)崿F(xiàn)高效的外積運(yùn)算。如下圖所示,外積與點(diǎn)積的區(qū)別在于,點(diǎn)積的運(yùn)算結(jié)果是一個(gè)標(biāo)量,而外積則由兩個(gè)輸入向量生成一個(gè)矩陣。

050da0de-73f4-11f0-a18e-92fbcf53809c.png

通過以下矩陣乘法示例來(lái)直觀理解這一區(qū)別:

0526e6de-73f4-11f0-a18e-92fbcf53809c.png

該矩陣乘法可分解為一系列外積運(yùn)算,如下圖所示:

053ba312-73f4-11f0-a18e-92fbcf53809c.png

明確這一概念后,再來(lái)深入探討構(gòu)成優(yōu)化的矩陣乘法例程核心的 SME2 匯編指令:

FMOPA za0.s, p0/m, p1/m, z1.s, z3.s

各操作數(shù)的含義如下:

FMOPA:浮點(diǎn)矩陣外積累加指令。

ZA0.s:用于存儲(chǔ)和累積外積結(jié)果的 ZA 寄存器塊。

p0/m 和 p1/m:用于定義有效計(jì)算通道(掩碼操作)的 Predicate 寄存器。

z1.s 和 z3.s:參與外積運(yùn)算的輸入向量。

該指令支持多種數(shù)據(jù)類型,涵蓋浮點(diǎn)格式(如 F32 和 F16)及整數(shù)類型(如 INT8)。得益于 SVE 技術(shù)的應(yīng)用,它具備向量長(zhǎng)度無(wú)關(guān)性,這意味著其能隨硬件向量尺寸自動(dòng)適配擴(kuò)展,無(wú)需修改任何代碼。

為展現(xiàn) SME2 的性能潛力,不妨看看它在 Google Gemma 3 模型中通過 INT8 外積指令加速 INT4 矩陣乘法的效果。相比同一設(shè)備未啟用 SME2 的情況,當(dāng) Gemma 3 模型部署在支持 SME2 的硬件上時(shí),聊天機(jī)器人用例的 AI 響應(yīng)速度最高可提升六倍。

此外,借助單 CPU 核心上的 SME2 加速,Gemma 3 能在一秒內(nèi)開始對(duì)一篇四段文字的文本內(nèi)容生成摘要,充分印證了該架構(gòu)在響應(yīng)速度與運(yùn)行效率上的提升。

優(yōu)化所帶來(lái)的實(shí)際意義

通過這些更新,XNNPack 成為首個(gè)支持 SME2 的 AI 推理庫(kù),能夠在 Arm CPU 上進(jìn)一步實(shí)現(xiàn)前所未有的性能表現(xiàn)。

無(wú)論是專注于生成式 AI 還是基于 CNN 神經(jīng)網(wǎng)絡(luò)的開發(fā)者,都能在無(wú)需修改任何代碼的情況下,在其應(yīng)用上實(shí)現(xiàn)顯著的性能提升。

展望 Arm KleidiAI 的未來(lái)

過去一年的實(shí)踐證明,透明化加速不僅切實(shí)可行,更已具備實(shí)際應(yīng)用價(jià)值。隨著 KleidiAI 不斷突破 XNNPack 上的性能表現(xiàn),開發(fā)者可專注于打造出色的 AI 體驗(yàn),而運(yùn)行時(shí)性能也將持續(xù)提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9553

    瀏覽量

    392007
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11279

    瀏覽量

    225066
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39809

    瀏覽量

    301479

原文標(biāo)題:集成一周年,Arm KleidiAI 與 XNNPack 實(shí)現(xiàn)無(wú)縫且透明性 AI 性能

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在裸機(jī)環(huán)境中運(yùn)行KleidiAI微內(nèi)核

    Arm KleidiAI 是一款具有突破性意義的軟件庫(kù),專為提升 Arm CPU 上的人工智能 (AI)
    的頭像 發(fā)表于 08-08 15:16 ?3840次閱讀
    如何在裸機(jī)環(huán)境中運(yùn)行<b class='flag-5'>KleidiAI</b>微內(nèi)核

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開發(fā) AI 應(yīng)用的庫(kù)。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上
    的頭像 發(fā)表于 12-03 17:05 ?2205次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>助力<b class='flag-5'>提升</b>PyTorch上LLM推理<b class='flag-5'>性能</b>

    Arm+AWS實(shí)現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

    文中介紹的車載生成式 AI 應(yīng)用演示由 Arm KleidiAI 進(jìn)行優(yōu)化并由 AWS 所提供的服務(wù)進(jìn)行支持,展示了新興技術(shù)如何幫助解決汽車行業(yè)的實(shí)際挑戰(zhàn)。該解決方案可實(shí)現(xiàn) 1 至 3
    的頭像 發(fā)表于 04-03 19:24 ?1874次閱讀
    <b class='flag-5'>Arm</b>+AWS<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>AI</b>定義汽車  基于<b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>優(yōu)化并由AWS提供支持

    Keil當(dāng)下有集成AI技術(shù)的規(guī)劃嗎

    有沒有集成AI工具,可以快速編程,提升開發(fā)效率的,常用的MCU有STM32,GD32等
    發(fā)表于 04-06 14:38

    《電子發(fā)燒友電子設(shè)計(jì)周報(bào)》聚焦硬科技領(lǐng)域核心價(jià)值 第23期:2025.08.04--2025.08.08

    、Arm方案--Arm KleidiAIXNNPack集成實(shí)現(xiàn)
    發(fā)表于 08-08 20:47

    Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計(jì)算框架

    `Tengine 是OPEN AI LAB 為嵌入式設(shè)備開發(fā)的一個(gè)輕量級(jí)、高性能并且模塊化的引擎?;?b class='flag-5'>ARM平臺(tái)高效的計(jì)算庫(kù)實(shí)現(xiàn),針對(duì)特定硬件平臺(tái)的
    發(fā)表于 08-13 15:58

    重大性能更新:Wasm 后端將利用 SIMD指令和 XNNPACK多線程

    https://github.com/WebAssembly/simd XNNPACK https://github.com/google/XNNPACK 多線程 https://github.com/WebAssembly/threads 基準(zhǔn) SIMD 和多線程為我
    的頭像 發(fā)表于 09-30 15:15 ?1.1w次閱讀
    重大<b class='flag-5'>性能</b>更新:Wasm 后端將利用 SIMD指令和 <b class='flag-5'>XNNPACK</b>多線程

    ARM發(fā)布旗艦手機(jī)芯片:性能提升、AI性能增強(qiáng)、節(jié)能減耗

    ARM為Cortex-X系列CPU重新命名,以強(qiáng)調(diào)其性能的顯著提升。據(jù)稱,X925的單核性能較X4提升了36%(依據(jù)Geekbench測(cè)試結(jié)
    的頭像 發(fā)表于 05-30 11:26 ?1971次閱讀

    Arm KleidiAI軟件庫(kù)的功能解析

    在持續(xù)快速發(fā)展的人工智能 (AI) 時(shí)代,Arm 堅(jiān)定地支持全球數(shù)百萬(wàn)開發(fā)者,確保他們能夠獲得 AI 創(chuàng)新開發(fā)所需的性能、工具和軟件庫(kù),從而順利打造下一波令人驚嘆的
    的頭像 發(fā)表于 09-05 15:41 ?1542次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>軟件庫(kù)的功能解析

    Arm成功將Arm KleidiAI軟件庫(kù)集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件庫(kù)集成到騰訊自研的 Angel 機(jī)器學(xué)習(xí)框架。 ? 借助 KleidiAI
    的頭像 發(fā)表于 11-24 15:33 ?1822次閱讀

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個(gè)廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫(kù)。近年來(lái),Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升
    的頭像 發(fā)表于 12-23 09:19 ?1876次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術(shù)<b class='flag-5'>實(shí)現(xiàn)</b>PyTorch優(yōu)化

    Arm 與微軟合作,為基于 Arm 架構(gòu)的 PC 和移動(dòng)設(shè)備應(yīng)用提供超強(qiáng) AI 體驗(yàn)

    ArmKleidiAI與ONNXRuntime的集成,為Windows和安卓操作系統(tǒng)帶來(lái)了顯著的AI性能優(yōu)化,實(shí)現(xiàn)高達(dá)2.6倍的AI推理速度
    的頭像 發(fā)表于 06-03 16:47 ?876次閱讀
    <b class='flag-5'>Arm</b> 與微軟合作,為基于 <b class='flag-5'>Arm</b> 架構(gòu)的 PC 和移動(dòng)設(shè)備應(yīng)用提供超強(qiáng) <b class='flag-5'>AI</b> 體驗(yàn)

    Arm率先適配騰訊混元開源模型,助力端側(cè)AI創(chuàng)新開發(fā)

    共同賦能端側(cè)人工智能 (AI) 部署,助力本土開發(fā)者實(shí)現(xiàn) AI 應(yīng)用創(chuàng)新! 這次的首日開源適配是雙方再次攜手提升端側(cè)應(yīng)用功能和用戶體驗(yàn)的又一例證。去年,
    的頭像 發(fā)表于 08-08 09:16 ?1398次閱讀
    <b class='flag-5'>Arm</b>率先適配騰訊混元開源模型,助力端側(cè)<b class='flag-5'>AI</b>創(chuàng)新開發(fā)

    Arm神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),移動(dòng)設(shè)備上實(shí)現(xiàn)PC級(jí)別的AI圖形性能

    Arm 神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),首次在移動(dòng)設(shè)備上實(shí)現(xiàn) PC 級(jí)別的 AI 圖形性能,為未來(lái)的端側(cè)
    的頭像 發(fā)表于 08-14 17:59 ?2775次閱讀

    全新Arm Lumex CSS平臺(tái)實(shí)現(xiàn)兩位數(shù)性能提升

    及下一代個(gè)人電腦加速其人工智能 (AI) 體驗(yàn)的先進(jìn)計(jì)算平臺(tái)。Lumex CSS 平臺(tái)集成了搭載第二代可伸縮矩陣擴(kuò)展 (SME2) 技術(shù)的最高性能 Arm CPU、GPU 及系統(tǒng) IP
    的頭像 發(fā)表于 09-10 16:14 ?936次閱讀
    全新<b class='flag-5'>Arm</b> Lumex CSS平臺(tái)<b class='flag-5'>實(shí)現(xiàn)</b>兩位數(shù)<b class='flag-5'>性能</b><b class='flag-5'>提升</b>