91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

提高AI算力,異構(gòu)優(yōu)化也是關(guān)鍵

英特爾中國(guó) ? 來(lái)源:英特爾中國(guó) ? 2023-03-12 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,勁爆亮相的ChatGPT著實(shí)讓人們眼前一亮,讓普羅大眾也“親密”體驗(yàn)了人工智能AI)的神奇魔力,窺見(jiàn)了智能未來(lái)的璀璨前景之一斑。

然而,就在這離生活愈來(lái)愈近的AI讓人們對(duì)未來(lái)充滿無(wú)限憧憬、滿懷激動(dòng)的同時(shí),也有冷靜的分析指出,諸如ChatGPT等AI規(guī)模應(yīng)用也是一個(gè)“吞金獸”,其帶來(lái)的不僅僅是讓人急呼“AI算力告急”的算力消耗(有研究顯示,中國(guó)智能算力需求規(guī)模,到2026年就將進(jìn)入每秒十萬(wàn)億億次浮點(diǎn)計(jì)算(ZFLOPS)級(jí)別,達(dá)到1,271.4EFLOPS,從2021到2026年,年復(fù)合增長(zhǎng)率將達(dá)52.3%1);更有從云端、邊緣到終端廣泛AI應(yīng)用場(chǎng)景,使得IT運(yùn)營(yíng)環(huán)境日益復(fù)雜和多樣,讓各種AI方案在異構(gòu)平臺(tái)獲得便捷、易用且有效優(yōu)化成為急迫的需求。

異構(gòu)計(jì)算,主要指不同類型的指令集和體系架構(gòu)的計(jì)算單元組成的系統(tǒng)的計(jì)算方式,在云數(shù)據(jù)中心、邊緣計(jì)算場(chǎng)景等有著廣泛應(yīng)用。

異構(gòu)計(jì)算的興起與工作負(fù)載密切相關(guān),在能有效發(fā)揮異構(gòu)計(jì)算優(yōu)勢(shì)的應(yīng)用場(chǎng)景中,人工智能場(chǎng)景可謂是典型的代表場(chǎng)景之一,不管是深度學(xué)習(xí)訓(xùn)練,還是深度學(xué)習(xí)推理,都會(huì)進(jìn)行大量矩陣運(yùn)算,需要異構(gòu)計(jì)算提供更有力支撐;而隨著AI應(yīng)用快速走向邊緣,由此引致的云邊端協(xié)同,對(duì)異構(gòu)計(jì)算提出了更高要求。計(jì)算平臺(tái)在提升自身算力水平的同時(shí),也需要通過(guò)提供優(yōu)化策略,幫助用戶更好地提升AI方案的性能,助力AI應(yīng)用降本增效。

騰訊云創(chuàng)新打造TACO Kit套件,為AI應(yīng)用提供異構(gòu)加速

為幫助廣大用戶應(yīng)對(duì)日益復(fù)雜的異構(gòu)環(huán)境給AI應(yīng)用帶來(lái)的挑戰(zhàn),騰訊云創(chuàng)新推出計(jì)算加速套件TACO Kit (TencentCloud Accelerated Computing Optimization Kit),通過(guò)在異構(gòu)硬件平臺(tái)上提供全棧式的軟硬件解決方案的模式,為AI方案設(shè)計(jì)者、AI開(kāi)發(fā)人員以及AI使用者構(gòu)建全新的異構(gòu)計(jì)算加速軟件服務(wù),助其借助多元化異構(gòu)、高性能加速框架、離線虛擬化技術(shù)以及靈活的商業(yè)模式,輕松駕馭多元算力,助力AI應(yīng)用全方位、全場(chǎng)景降本增效。

而作為異構(gòu)加速服務(wù)的入口,TACO Kit內(nèi)置AI推理加速引擎TACO Infer,能針對(duì)AI應(yīng)用中不同的訓(xùn)練和服務(wù)框架、個(gè)性的優(yōu)化實(shí)踐和使用習(xí)慣、各異的軟件版本和硬件偏好,以計(jì)算加速、無(wú)感接入和魯棒易用的特性和優(yōu)勢(shì),幫助用戶一站式解決AI模型在生產(chǎn)環(huán)境中部署與應(yīng)用的痛點(diǎn)。

94f5a4c2-c072-11ed-bfe3-dac502259ad0.png

圖一 AI推理加速引擎TACO Infer

TACO Infer引擎具備的功能特性包括:

■無(wú)感集成:可跨平臺(tái)透明適配CPUGPU、NPU等異構(gòu)芯片;尊重用戶使用習(xí)慣,無(wú)需改變模型源格式;無(wú)需進(jìn)行IR(Intermediate Representation,中間表示)轉(zhuǎn)換,對(duì)無(wú)顯式算子結(jié)構(gòu)模型友好;

■基于原生框架Runtime:可基于多種流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等運(yùn)行;可基于框架原Runtime構(gòu)建,并可充分利用框架自定義的擴(kuò)展機(jī)制;

■無(wú)縫對(duì)接服務(wù)框架:包括TF Serving、Triton以及TorchServe等。

基于以上特性,無(wú)論在何種場(chǎng)景中,用戶在硬件平臺(tái)上部署AI應(yīng)用,都只需要進(jìn)行簡(jiǎn)單地前端交互,就能讓TACO Kit在后臺(tái)以最佳模式啟動(dòng)工作負(fù)載,并獲得更優(yōu)的推理性能。

而這一優(yōu)異推理性能的獲得,離不開(kāi)英特爾和騰訊云面向TACO Kit開(kāi)展的深度協(xié)作加持。具體講,就是將英特爾 Neural Compressor集成到TACO Kit之中,來(lái)大幅提升AI推理性能,加速各類AI應(yīng)用便捷高效落地。

英特爾 Neural Compressor提供優(yōu)化支持,助力TACO Kit加速推理

英特爾 Neural Compressor是英特爾開(kāi)源的神經(jīng)網(wǎng)絡(luò)模型壓縮庫(kù),不僅面向如量化、修剪以及知識(shí)提取等主流模型壓縮技術(shù),提供了跨多個(gè)深度學(xué)習(xí)框架的統(tǒng)一接口,還具有以下模型性能調(diào)優(yōu)特性:

■具備由精度驅(qū)動(dòng)的自動(dòng)化調(diào)整策略,幫助用戶快速獲得最佳量化模型;

■可使用預(yù)定義的稀疏性目標(biāo)生成修剪模型,實(shí)現(xiàn)不同的權(quán)重修剪算法;

■能夠從更大的網(wǎng)絡(luò)(“教師”)中提取知識(shí)用于訓(xùn)練更小的網(wǎng)絡(luò)(“學(xué)生”),實(shí)現(xiàn)更小的精度損失。

英特爾和騰訊云協(xié)作,通過(guò)插件的方式將英特爾 Neural Compressor集成到TACO Kit,讓TACO Kit充分利用英特爾 Neural Compressor的優(yōu)勢(shì)特性。如圖二所示,利用量化壓縮技術(shù)來(lái)為不同的深度深度框架(如TensorFlow、PyTorch、ONNXRuntime等)提供統(tǒng)一的模型優(yōu)化 API,便捷實(shí)現(xiàn)模型推理優(yōu)化(由FP32數(shù)據(jù)類型量化為INT8數(shù)據(jù)類型)。同時(shí),也可以利用壓縮庫(kù)內(nèi)置的精度調(diào)優(yōu)策略,根據(jù)不同的模型內(nèi)部結(jié)構(gòu)生成精度更佳的量化模型,幫助用戶大幅降低模型量化的技術(shù)門(mén)檻,并有效提升AI模型的推理效率。

9533478c-c072-11ed-bfe3-dac502259ad0.png

圖二 集成英特爾 Neural Compressor后的TACO Kit工作流程

在云端部署時(shí),量化后的模型可通過(guò)英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)內(nèi)置的英特爾 DL Boost,來(lái)獲得有效的硬件加速和更高的推理效率。以指令集中的vpdpbusd指令為例,以往需要3條指令(vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加過(guò)程,現(xiàn)在僅需1條指令(vpdpbusd)即可,并能夠消除運(yùn)行過(guò)程中的處理器飽和問(wèn)題,再輔之以乘加過(guò)程中的中間數(shù)值直接從內(nèi)存播送,可使得處理性能達(dá)初始FP32模型的4倍2。這無(wú)疑為T(mén)ACO Kit加速推理,進(jìn)而幫助用戶在異構(gòu)環(huán)境更高效地構(gòu)建和部署AI提供了關(guān)鍵助力。

9552c080-c072-11ed-bfe3-dac502259ad0.png

圖三 英特爾 DL Boost(AVX-512_VNNI)技術(shù)

方案驗(yàn)證顯真實(shí)性能,展異構(gòu)AI加速優(yōu)勢(shì)

那么,集成英特爾 Neural Compressor后的TACO Kit的性能究竟有何等驚艷提升呢?實(shí)踐最有發(fā)言權(quán),數(shù)據(jù)最有說(shuō)服力。套件打造完成后,英特爾與騰訊云一起選取了多種被廣泛應(yīng)用的自然語(yǔ)言處理深度學(xué)習(xí)模型,對(duì)TACO Kit性能加速進(jìn)行了驗(yàn)證測(cè)試。

測(cè)試中,各個(gè)深度學(xué)習(xí)模型在通過(guò)TACO Kit進(jìn)行優(yōu)化后,使用英特爾 Neural Compressor進(jìn)行INT8量化及性能調(diào)優(yōu),推理性能加速結(jié)果令人滿意。如圖四所示3,在保持精度水平基本不變的情況下,各深度學(xué)習(xí)模型的推理性能均獲得顯著提升,提升幅度從55%到139%不等,在其中的bert-base-uncased-mrpc場(chǎng)景中,推理性能更是達(dá)到了基準(zhǔn)值的2.39倍。

957e82ba-c072-11ed-bfe3-dac502259ad0.png

圖四 集成英特爾 Neural Compressor的TACO Kit所帶來(lái)的推理性能加速4

對(duì)TACO Kit引入英特爾 Neural Compressor獲得的大幅性能加速,騰訊云異構(gòu)計(jì)算專家級(jí)工程師葉帆直言,這一合作成果能幫助不同角色的用戶在異構(gòu)硬件平臺(tái)上獲得便捷、易用且經(jīng)過(guò)有效優(yōu)化的 AI 加速能力,助力AI 應(yīng)用實(shí)現(xiàn)全方位、全場(chǎng)景的降本增效。而英特爾 Neural Compressor 是 TACO Kit 中 AI 推理負(fù)載獲得充分性能加速的有效技術(shù)保證。

基于這一成果,英特爾和騰訊云也將面向未來(lái)繼續(xù)深化合作,通過(guò)融合硬件廠商優(yōu)化算子、自研AI編譯技術(shù)升級(jí)等措施,驅(qū)動(dòng)TACO Infer在軟硬件兼容性和性能上不斷迭代優(yōu)化。同時(shí),雙方還計(jì)劃進(jìn)一步將第四代英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)及其內(nèi)置的深度學(xué)習(xí)加速技術(shù)與騰訊計(jì)算加速套件TACO Kit相融合,借助新平臺(tái)更為澎湃的算力輸出與深度學(xué)習(xí)加速新技術(shù),為用戶提供更加高效可用的異構(gòu)AI加速能力,進(jìn)而在推動(dòng)AI走向更廣泛應(yīng)用的同時(shí),助力應(yīng)對(duì)多模態(tài)大模型等對(duì)算力提出的更嚴(yán)峻挑戰(zhàn),驅(qū)動(dòng)智能應(yīng)用向縱深化演進(jìn),為經(jīng)濟(jì)社會(huì)的高質(zhì)量發(fā)展提供強(qiáng)勁數(shù)字生產(chǎn)力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10302

    瀏覽量

    180557
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301543
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50115

    瀏覽量

    265576

原文標(biāo)題:提高AI算力,異構(gòu)優(yōu)化也是關(guān)鍵

文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值

    310P芯片的底層架構(gòu),深度剖析這款產(chǎn)品的技術(shù)細(xì)節(jié)、門(mén)檻及其在實(shí)際產(chǎn)業(yè)落地中的真實(shí)價(jià)值。 一、176TOPS的產(chǎn)業(yè)門(mén)檻:為何這是邊緣的新起點(diǎn)?
    發(fā)表于 03-10 14:19

    解鎖邊緣智能新境界,天數(shù)智AI邊緣模組賦能端側(cè)AI應(yīng)用新篇章?

    在數(shù)字化與智能化飛速發(fā)展的時(shí)代,邊緣計(jì)算正逐漸成為推動(dòng)行業(yè)變革的關(guān)鍵力量。天數(shù)智緊跟技術(shù)浪潮,精心布局AI邊緣模組領(lǐng)域,以強(qiáng)大的產(chǎn)品矩
    的頭像 發(fā)表于 12-12 09:16 ?674次閱讀
    解鎖邊緣智能新境界,天數(shù)智<b class='flag-5'>算</b><b class='flag-5'>AI</b>邊緣<b class='flag-5'>算</b><b class='flag-5'>力</b>模組賦能端側(cè)<b class='flag-5'>AI</b>應(yīng)用新篇章?

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    從CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構(gòu)計(jì)算效能

    的科技企業(yè)也在近期表示,將通過(guò)軟件層創(chuàng)新大幅提升資源利用率。作為高AI模組和端側(cè)AI領(lǐng)域
    的頭像 發(fā)表于 11-21 16:05 ?1180次閱讀
    從CPU、GPU到NPU,美格智能持續(xù)<b class='flag-5'>優(yōu)化</b><b class='flag-5'>異構(gòu)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>計(jì)算效能

    硅芯科技:AI突破,新型堆疊EDA工具持續(xù)進(jìn)化

    無(wú)法滿足AI芯片對(duì)于異構(gòu)集成的需求。日前,珠海硅芯科技有限公司創(chuàng)始人兼首席科學(xué)家趙毅博士在2025灣芯展上接受媒體采訪,分享了AI
    的頭像 發(fā)表于 10-31 09:16 ?1.3w次閱讀
    硅芯科技:<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>突破,新型堆疊EDA工具持續(xù)進(jìn)化

    國(guó)產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下
    發(fā)表于 10-27 13:12

    什么是AI模組?

    未來(lái),騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進(jìn)和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:26 ?1771次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來(lái),騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進(jìn)和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:25 ?842次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    一文看懂AI集群

    ,可以給AI浪潮提供源源不斷的動(dòng)力。那么,AI集群,到底是由哪些東西組成的呢?它為什么能夠提供澎湃的
    的頭像 發(fā)表于 07-23 12:18 ?1636次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    壁仞科技擔(dān)任智集群異構(gòu)混訓(xùn)工作組組長(zhǎng)

    參與了本次交流,分享智集群異構(gòu)混訓(xùn)的關(guān)鍵技術(shù)進(jìn)展、成功落地案例,為突破大模型異構(gòu)孤島難題指
    的頭像 發(fā)表于 05-27 16:55 ?1170次閱讀

    RAKsmart智能架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    AI大模型參數(shù)量突破萬(wàn)億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能
    的頭像 發(fā)表于 04-17 09:29 ?776次閱讀

    弘信電子旗下燧弘華創(chuàng)與聯(lián)想發(fā)布多元異構(gòu)調(diào)度平臺(tái)

    近日,燧弘華創(chuàng)慶陽(yáng)綠色智中心迎來(lái)里程碑時(shí)刻——由燧弘華創(chuàng)與聯(lián)想合作共建的多元異構(gòu)調(diào)度平臺(tái)正式發(fā)布。
    的頭像 發(fā)表于 03-31 11:41 ?1194次閱讀

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    集群的部署過(guò)程中,帶寬瓶頸成為制約發(fā)揮的關(guān)鍵因素,而光模塊的速率躍升成為突破這一瓶頸的核心驅(qū)動(dòng)力。 光模塊速率躍升 隨著
    發(fā)表于 03-25 12:00

    接棒,慧榮科技以主控技術(shù)突破AI存儲(chǔ)極限

    ? 過(guò)去的AI大模型通常走大磚飛的路子,通過(guò)疊加更強(qiáng)的,來(lái)推動(dòng)AI大模型的發(fā)展。但DeepSeek通過(guò)算法的
    的頭像 發(fā)表于 03-19 01:29 ?2887次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術(shù)突破<b class='flag-5'>AI</b>存儲(chǔ)極限