91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

優(yōu)化用于深度學(xué)習(xí)工作負載的張量程序

DPVg_AI_era ? 來源:未知 ? 作者:胡薇 ? 2018-05-23 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

華盛頓大學(xué)計算機系博士生陳天奇、以及上海交通大學(xué)和復(fù)旦大學(xué)的研究團隊提出一個基于學(xué)習(xí)的框架,以優(yōu)化用于深度學(xué)習(xí)工作負載的張量程序。該研究使用基于機器學(xué)習(xí)的方法來自動優(yōu)化張量運算核心并編譯AI工作負載,從而可以將最優(yōu)的性能部署到所有硬件。實驗結(jié)果表明,該框架能夠為低功耗CPU,移動GPU和服務(wù)器級GPU提供與最先進手工調(diào)優(yōu)庫相媲美的性能。

深度學(xué)習(xí)在我們的日常生活中已經(jīng)無處不在。深度學(xué)習(xí)模型現(xiàn)在可以識別圖像,理解自然語言,玩游戲,以及自動化系統(tǒng)決策(例如設(shè)備放置和索引)。張量算符(tensor operators),如矩陣乘法和高維卷積,是深度學(xué)習(xí)模型的基本組成部分。

可擴展的學(xué)習(xí)系統(tǒng)依賴于手動優(yōu)化的高性能張量操作庫,如cuDNN。這些庫針對較窄范圍的硬件進行了優(yōu)化。為了優(yōu)化張量算符,程序員需要從邏輯上等價的許多實現(xiàn)中進行選擇,但由于線程,內(nèi)存重用, pipelining和其他硬件因素的不同,性能上的差別很大。

支持多種硬件后端需要巨大的工程努力。即使在當(dāng)前支持的硬件上,深度學(xué)習(xí)框架和模型的開發(fā)也從根本上受到庫中優(yōu)化操作符設(shè)置的限制,阻止了諸如操作符熔合(operator fusion)之類的優(yōu)化,從而產(chǎn)生不受支持的操作符。

針對這個問題,華盛頓大學(xué)計算機系博士生陳天奇、以及上海交通大學(xué)和復(fù)旦大學(xué)的研究團隊提出一個基于學(xué)習(xí)的框架,以優(yōu)化用于深度學(xué)習(xí)工作負載的張量程序( tensor programs)。

摘要

我們提出一個基于學(xué)習(xí)的框架,以優(yōu)化用于深度學(xué)習(xí)工作負載的張量程序( tensor programs)。矩陣乘法和高維卷積等張量算符( tensor operators)的高效實現(xiàn)是有效的深度學(xué)習(xí)系統(tǒng)的關(guān)鍵。然而,現(xiàn)有的系統(tǒng)依賴于手工優(yōu)化的庫,如cuDNN,這些庫只有很少的服務(wù)器級GPU能很好地支持。對硬件有要求的操作庫的依賴限制了高級圖形優(yōu)化的適用性,并且在部署到新的硬件目標(biāo)時會產(chǎn)生巨大的工程成本。我們利用學(xué)習(xí)來消除這種工程負擔(dān)。我們學(xué)習(xí)了領(lǐng)域特定的統(tǒng)計成本模型,以指導(dǎo)在數(shù)十億可能的程序變體上搜索張量算符的實現(xiàn)。我們通過跨工作負載的有效模型遷移來進一步加快搜索速度。

實驗結(jié)果表明,我們的框架能夠為低功耗CPU,移動GPU和服務(wù)器級GPU提供與最先進手工調(diào)優(yōu)庫相媲美的性能。

學(xué)習(xí)優(yōu)化張量程序問題的形式化方法

我們提出以下問題:我們是否可以通過學(xué)習(xí)來減輕這種工程負擔(dān),并自動優(yōu)化給定硬件平臺的張量算符程序?本論文為這個問題提供了肯定的答案。我們建立了統(tǒng)計成本模型來預(yù)測給定的低級程序的程序運行時間。這些成本模型指導(dǎo)了對可能程序空間的探索。我們的成本模型使用可遷移的表示形式,可以在不同的工作負載之間進行泛化,以加速搜索。這一工作的貢獻如下:

我們提供了學(xué)習(xí)優(yōu)化張量程序問題的一種形式化方法,并總結(jié)了其關(guān)鍵特征。

我們提出了一個基于機器學(xué)習(xí)的框架來解決這個新問題。

我們使用遷移學(xué)習(xí)將優(yōu)化速度進一步提高2倍至10倍。

我們在這個框架中提供了詳細的組件設(shè)計選擇和實證分析。

在實際的深度學(xué)習(xí)工作負載的實驗結(jié)果表明,我們的框架提供的端到端性能改進比現(xiàn)有框架好1.2倍至3.8倍。

圖1:該問題的一個例子。 對于給定的張量算符規(guī)范 ,有多種可能的低級別程序?qū)崿F(xiàn),每種實現(xiàn)都有不同的loop順序, tiling 大小以及其他選項。每個選項都創(chuàng)建一個具有不同性能的邏輯等效程序。我們的問題是探索程序空間并找到一個優(yōu)化的程序。

圖2:學(xué)習(xí)優(yōu)化張量程序框架的概覽

學(xué)習(xí)優(yōu)化張量程序算法

圖3:編碼低級別循環(huán)AST的可能方法的示例

表1:單batch的ResNet-18推理中所有conv2d操作符的配置。H,W表示高度和寬度,IC表示輸入通道,OC表示輸出通道,K表示 kernel大小,以及S表示stride大小。

討論和結(jié)論

我們提出了一種基于機器學(xué)習(xí)的框架來自動優(yōu)化深度學(xué)習(xí)系統(tǒng)中張量算符的實現(xiàn)。我們的統(tǒng)計成本模型允許在工作負載之間進行有效的模型共享,并通過模型遷移加速優(yōu)化過程。這個新方法的優(yōu)秀實驗結(jié)果顯示了對深度學(xué)習(xí)部署的好處。

在我們的解決方案框架之外,這個新問題的具體特征使它成為相關(guān)領(lǐng)域創(chuàng)新的一個理想測試平臺,如神經(jīng)程序建模、貝葉斯優(yōu)化、遷移學(xué)習(xí)和強化學(xué)習(xí)。

在系統(tǒng)方面,學(xué)習(xí)優(yōu)化張量程序可以使更多的融合操作符、數(shù)據(jù)布局和數(shù)據(jù)類型跨不同的硬件后端。這些改進對于改進深度學(xué)習(xí)系統(tǒng)至關(guān)重要。我們將開放我們的實驗框架,以鼓勵在這些方向進行更多的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:陳天奇團隊新研究:自動優(yōu)化深度學(xué)習(xí)工作負載

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    簡儀科技走進三所高校開展AI助力測試測量程序開發(fā)實操課程

    2026年1月14日-16日,簡儀科技“AI+測試測量”高校行落地西北,先后走進西安電子科技大學(xué)、西安科技大學(xué)、西北工業(yè)大學(xué)開展“AI助力測試測量程序開發(fā)”實操課程,并與到訪的西安航空學(xué)院完成校企課程合作交流,以“技術(shù)實操+場景適配”為核心,推動AI與工程教育的深度融合。
    的頭像 發(fā)表于 01-21 16:46 ?1236次閱讀

    機器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注
    的頭像 發(fā)表于 01-07 15:37 ?194次閱讀
    機器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學(xué)習(xí)

    ,能適用惡劣工況,在粉塵、高溫、氧化皮等惡劣環(huán)境中均可正常工作。 測量原理 利用頂頭與周圍的物質(zhì)(水、空氣、導(dǎo)盤等)紅外輻射能量的差異,用熱成像相機拍攝出清晰的圖片,再通過深度學(xué)習(xí)短時間內(nèi)深度
    發(fā)表于 12-22 14:33

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(第9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作為工業(yè)自動化領(lǐng)域主流開發(fā)環(huán)境,LabVIEW與深度學(xué)習(xí)的集成
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(第9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作為工業(yè)自動化領(lǐng)域主流開發(fā)環(huán)境,LabVIEW與深度學(xué)習(xí)的集成
    發(fā)表于 12-03 13:50

    如何深度學(xué)習(xí)機器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標(biāo)準化缺陷模式 非標(biāo)產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?223次閱讀

    【產(chǎn)品介紹】Altair PBS Professional HPC工作負載管理器和作業(yè)調(diào)度管理系統(tǒng)

    AltairPBSProfessional行業(yè)領(lǐng)先的HPC工作負載管理器和作業(yè)調(diào)度管理系統(tǒng)PBSProfessional是一款快速、強大的工作負載管理器和作業(yè)調(diào)度管理系統(tǒng),旨在提高生產(chǎn)
    的頭像 發(fā)表于 09-19 17:03 ?630次閱讀
    【產(chǎn)品介紹】Altair PBS Professional HPC<b class='flag-5'>工作</b><b class='flag-5'>負載</b>管理器和作業(yè)調(diào)度管理系統(tǒng)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    矩陣乘法的算法 ①矩陣乘法的各種算法 ②優(yōu)化矩陣乘法過程的新方法 ③加速矩陣乘法的新算法 1)用學(xué)習(xí)替代乘法 2)用加法代替矩陣乘法 3)只用加法的大模型計算 4)用深度強化學(xué)習(xí)發(fā)現(xiàn)和
    發(fā)表于 09-12 17:30

    如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術(shù)。事實上,這種印象忽視了該技術(shù)為機器視覺(乃至生產(chǎn)自動化)帶來的潛力,因為深度學(xué)習(xí)并非只屬于計算機科學(xué)家或程序員。 從頭開始:什么
    的頭像 發(fā)表于 09-10 17:38 ?902次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    如何加速實時工作負載

    對于需要實時響應(yīng)的數(shù)據(jù)中心工作負載,性能不僅是指原始吞吐量或處理能力。挑戰(zhàn)在于:在保持吞吐量和能效的同時,實現(xiàn)確定性時延。
    的頭像 發(fā)表于 09-10 15:36 ?709次閱讀

    深度學(xué)習(xí)對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學(xué)習(xí)作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu),能夠自動從海量工業(yè)數(shù)據(jù)中提取復(fù)雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)感知到智能決策的全鏈路升級能力。以下從技術(shù)賦能、場景突破
    的頭像 發(fā)表于 08-20 14:56 ?1030次閱讀

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4186次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    存儲示波器的存儲深度對信號分析有什么影響?

    。以下從技術(shù)原理、實際影響及優(yōu)化策略三方面展開分析。一、存儲深度對信號分析的核心影響1. 時域信號完整性 邊沿細節(jié)捕捉能力 高頻信號邊沿:如100MHz時鐘信號的上升沿/下降沿時間通常在5ns以內(nèi),需
    發(fā)表于 05-27 14:39

    思嵐科技AI工業(yè)機器人開放底盤Phoebus P350全新發(fā)布:深度學(xué)習(xí)導(dǎo)航+300KG負載

    工業(yè)4.0時代,智能搬運的“底盤力”決定效率天花板。 SLAMTEC全新推出 Phoebus P350工業(yè)級機器人底盤 ,以 “開放AI架構(gòu)+深度學(xué)習(xí)導(dǎo)航” 為核心,融合300KG超強負載、60cm
    的頭像 發(fā)表于 05-12 11:33 ?1433次閱讀
    思嵐科技AI工業(yè)機器人開放底盤Phoebus P350全新發(fā)布:<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>導(dǎo)航+300KG<b class='flag-5'>負載</b>

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學(xué)習(xí)應(yīng)用設(shè)計的硬件加速器。它的開發(fā)源于對人工智能(AI)和機器學(xué)習(xí)應(yīng)用的需求,尤其是
    的頭像 發(fā)表于 04-22 09:41 ?4374次閱讀
    TPU處理器的特性和<b class='flag-5'>工作</b>原理