91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

第一個支持圖神經(jīng)網(wǎng)絡(luò)的并行處理框架出現(xiàn)了

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-01 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

第一個支持圖神經(jīng)網(wǎng)絡(luò)的并行處理框架出現(xiàn)了!北京大學、微軟亞洲研究院的研究人員近日發(fā)表論文,提出NGra,這是第一個支持大規(guī)模GNN的系統(tǒng)。

GNN(圖神經(jīng)網(wǎng)絡(luò))代表了一種新興的計算模型,這自然地產(chǎn)生了對在大型graph上應用神經(jīng)網(wǎng)絡(luò)模型的需求。

但是,由于GNN固有的復雜性,這些模型超出了現(xiàn)有深度學習框架的設(shè)計范圍。此外,這些模型不容易在并行硬件(如GPU)上有效地加速。

近日,北京大學、微軟亞洲研究院的多位研究人員在arXiv上發(fā)布了一篇新論文,提出了解決這些問題的有效方案。

論文題為Towards Efficient Large-Scale Graph Neural Network Computing:

論文地址:https://arxiv.org/pdf/1810.08403.pdf

作者表示:“我們提出NGra,這是第一個基于圖形的深度神經(jīng)網(wǎng)絡(luò)并行處理框架?!?/p>

NGra描述了一種新的SAGA-NN模型,用于將深度神經(jīng)網(wǎng)絡(luò)表示為頂點程序(vertex programs) ,其中每一層都在明確定義的圖形操作階段(Scatter,ApplyEdge,Gather,ApplyVertex)。

這個模型不僅允許直觀地表示GNN,而且還可以方便地映射到高效的數(shù)據(jù)流表示。NGra通過GPU核心或多GPU的自動圖分區(qū)和基于chunk的流處理透明地解決了可擴展性挑戰(zhàn),仔細考慮了數(shù)據(jù)局部性、數(shù)據(jù)移動以及并行處理和數(shù)據(jù)移動的重疊。

NGra通過在GPU上進行高度優(yōu)化的Scatter / Gather操作進一步提高了效率,盡管它具有稀疏性。我們的評估表明,NGra可以擴展到現(xiàn)有框架無法直接處理的大型實際圖形,而在TensorFlow的multiple-baseline設(shè)計上,即使在小規(guī)模上也可以實現(xiàn)約4倍的加速。

第一個支持大規(guī)模GNN的系統(tǒng)

NGra是第一個支持大規(guī)模GNN(圖神經(jīng)網(wǎng)絡(luò))的系統(tǒng),這是一個在GPU上可擴展、高效的并行處理引擎。

NGra自然地將數(shù)據(jù)流(dataflow)與頂點程序抽象(vertex-program abstraction)結(jié)合在一個新模型中,我們將其命名為SAGA-NN(Scatter-ApplyEdge-Gather-ApplyVertex with Neural Networks)。

雖然SAGA可以被認為是GAS(Gather-Apply-Scatter)模型的變體,但SAGA-NN模型中的用戶定義函數(shù)允許用戶通過使用數(shù)據(jù)流抽象來表示對vertex或edge數(shù)據(jù)(被視為tensors)的神經(jīng)網(wǎng)絡(luò)計算,而不是專為傳統(tǒng)圖形處理而設(shè)計(例如PageRank、 connected component和最短路徑等算法

與DNN一樣,高效地使用GPU對于GNN的性能至關(guān)重要,而且由于要處理的是大型圖形結(jié)構(gòu),這一點更為重要。為了實現(xiàn)超出GPU物理限制的可擴展性,NGra將圖形(頂點和邊緣數(shù)據(jù))透明地劃分為塊(chunk),并將SAGA-NN模型中表示的GNN算法轉(zhuǎn)換為具有chunk粒度的運算符的dataflow graph,從而在單個GPU或多個GPU上啟用基于chunk的并行流處理。

NGra engine的效率在很大程度上取決于NGra如何管理和調(diào)度并行流處理,以及在GPU上關(guān)鍵圖形傳播運算符Scatter和Gather的實現(xiàn)。

NGra非常注重數(shù)據(jù)局部性,以最大限度地減少GPU內(nèi)存中的數(shù)據(jù)交換,并在GPU內(nèi)存中最大化數(shù)據(jù)塊的重用,同時將數(shù)據(jù)移動和計算以流的方式重疊。

對于多GPU的情況,它使用 ring-based streaming機制,通過直接在GPU之間交換數(shù)據(jù)塊來避免主機內(nèi)存中的冗余數(shù)據(jù)移動。

與其他基于GPU的圖形引擎關(guān)注的傳統(tǒng)圖形處理場景不同,在GNN場景中,可變頂點數(shù)據(jù)本身可能無法容納到GPU設(shè)備內(nèi)存中,因為每個頂點的數(shù)據(jù)可以是特征向量( feature vector)而不是簡單的標量(scalar)。因此,我們的方案更傾向于在每個頂點數(shù)據(jù)訪問中利用并行性,從而提高內(nèi)存訪問效率。

我們通過使用vertex-program abstraction和圖形傳播過程的自定義運算符擴展TensorFlow,從而實現(xiàn)NGra。

我們利用單個服務(wù)器的主機內(nèi)存和GPU的計算能力,證明NGra可以擴展以支持大型圖形的各種GNN算法,其中許多是現(xiàn)有深度學習框架無法直接實現(xiàn)的。

與小型graph上的TensorFlow相比,它可以支持GPU,NGra可以獲得最多4倍的加速。我們還廣泛評估了NGra的多重優(yōu)化所帶來的改進,以證明其有效性。

接下來的部分將描述SAGA-NN編程抽象,NGra系統(tǒng)的組件,以及NGra的實現(xiàn)和評估。

NGra程序抽象

基于圖(graph)的神經(jīng)網(wǎng)絡(luò)(GNN)是根據(jù)圖形結(jié)構(gòu)定義的一類通用神經(jīng)網(wǎng)絡(luò)架構(gòu)。

圖中的每個頂點或邊可以與張量數(shù)據(jù)(通常是vector)相關(guān)聯(lián),作為其特征或嵌入。GNN可以堆疊在多個層中,迭代傳播過程在同一個圖上逐層進行。

在圖的每個層中,頂點或邊緣要素沿邊緣變換和傳播,并在目標頂點聚合,以生成下一層的新要素。轉(zhuǎn)換可以是任意的DNN計算。

圖還可以包含每個頂點,每個邊緣或整個圖形的標簽,用于計算頂層的損失函數(shù)。然后從底層到頂層執(zhí)行前饋計算(feedforward computation)和反向傳播。

圖1描述了一個2層的GNN的前饋計算。

圖1

我們使用Gated Graph ConvNet(G-GCN)算法作為一個具體示例。 Graph ConvNet概括了卷積運算的概念,通常應用于圖像數(shù)據(jù)集,用于處理任意圖形(例如knowledge graph)。Gated Graph ConvNet進一步結(jié)合了門控機制,因此模型可以了解哪些邊對學習目標更重要。

G-GCN每一層的前饋計算如圖2所示:

圖2:SAGA-NN模型中,Gated Graph ConvNet的layer,其中?指矩陣乘法。

NGra系統(tǒng)的組成

NGra提供dataflow和vertex program abstractions的組合作為用戶界面。

NGra主要包括:

一個前端,它將SAGA-NN模型中實現(xiàn)的算法轉(zhuǎn)換為塊粒度數(shù)據(jù)流圖(chunk-granularity dataflow graph),使GPU中大型圖的GNN計算成為可能;

一個優(yōu)化層,它產(chǎn)生用于最小化主機和GPU設(shè)備存儲器之間的數(shù)據(jù)移動的調(diào)度策略,并識別融合操作和刪除冗余計算;

一組有效的傳播操作內(nèi)核,支持基于流的處理,以將GPU中的數(shù)據(jù)移動和計算重疊;

dataflow execution runtime。NGra主要利用現(xiàn)有的基于數(shù)據(jù)流的深度學習框架來處理dataflow execution runtime。

圖3:SAGA-NN Stages for each layer of GN

NGra的優(yōu)化

圖4描述了ApplyEdge階段中矩陣乘法運算:

圖4

圖5顯示了優(yōu)化的dataflow graph,其中矩陣乘法移入ApplyVertex stage:

圖7是多GPU的架構(gòu)

圖7:多GPU架構(gòu)

NGra的評估

我們在TensorFlow (v1.7) 上實現(xiàn)NGra,使用大約2,900行C++代碼和3000行Python代碼。NGra通過前端擴展TensorFlow,將SAGA-NN程序轉(zhuǎn)換為chunk-granularity dataflow graph,幾個scatter/gather 運算符,以實現(xiàn)高效的圖傳播,以及ring-based的流調(diào)度方案。

以下是評估結(jié)果。評估證明了NGra的高效和可擴展性,以及與state-of-the-art的系統(tǒng)TensorFlow的比較。

表1:數(shù)據(jù)集 (K: thousand, M: million)

圖13:TensorFlow(TF),cuSPARSE和NGra(NG) 在不同密度graphs上的傳播內(nèi)核時間

表2:與TensorFlow的迭代時間比較(ms)

圖14:不同應用程序的Streaming scheduling策略比較。(Data: reddit middle)

圖15:NGra在不同應用程序的擴展性能

圖16:在大型圖上使用不同應用程序加速NGra

結(jié)論

GNN代表了一種新興的計算模型,這自然地產(chǎn)生了對在大型graph上應用神經(jīng)網(wǎng)絡(luò)模型的需求。由于GNN訓練固有的復雜性,支持高效的、可擴展的并行計算是很困難的。

NGra是第一個支持GNN的并行處理框架,它使用新的編程抽象,然后將其映射和優(yōu)化為數(shù)據(jù)流,進而在GPU上高效執(zhí)行。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6745

    瀏覽量

    107974
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4839

    瀏覽量

    107986
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5600

    瀏覽量

    124495

原文標題:北大、微軟亞洲研究院:高效的大規(guī)模圖神經(jīng)網(wǎng)絡(luò)計算

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡(luò)引擎?

    我想知道為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡(luò)引擎,請問?您能否舉些關(guān)于他們的用例的例子?
    發(fā)表于 03-25 06:01

    神經(jīng)網(wǎng)絡(luò)的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡(luò)的實現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?372次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認識

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)啥?

    在自動駕駛領(lǐng)域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡稱為CNN,是種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學習模型。CNN在圖像處理
    的頭像 發(fā)表于 11-19 18:15 ?2134次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是<b class='flag-5'>個</b>啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時的梯度耗散問題。當x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當x&lt;0 時,該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速器上。首先需要將所有權(quán)重數(shù)據(jù)以及輸入數(shù)據(jù)導入到存儲器內(nèi)。 在仿真環(huán)境下,可將其存于文件,并在 Verilog 代碼中通過 read
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的
    的頭像 發(fā)表于 09-28 10:03 ?1372次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時間連續(xù)性與動態(tài)適應性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經(jīng)形態(tài)計算、類腦芯片

    AI芯片不僅包括深度學細AI加速器,還有另外主要列別:類腦芯片。類腦芯片是模擬人腦神經(jīng)網(wǎng)絡(luò)架構(gòu)的芯片。它結(jié)合微電子技術(shù)和新型神經(jīng)形態(tài)器件,模仿人腦
    發(fā)表于 09-17 16:43

    神經(jīng)網(wǎng)絡(luò)并行計算與加速技術(shù)

    問題。因此,并行計算與加速技術(shù)在神經(jīng)網(wǎng)絡(luò)研究和應用中變得至關(guān)重要,它們能夠顯著提升神經(jīng)網(wǎng)絡(luò)的性能和效率,滿足實際應用中對快速響應和大規(guī)模數(shù)據(jù)處理的需求。
    的頭像 發(fā)表于 09-17 13:31 ?1196次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>并行</b>計算與加速技術(shù)

    無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學模型的推導,得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預測,并采用改進遺傳算法來訓練網(wǎng)絡(luò)結(jié)
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機故障診斷中的應用

    的診斷誤差。仿真結(jié)果驗證該算法的有效性。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機故障診斷中的應用.pdf【免責聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    ,在定程度上擴展轉(zhuǎn)速估計范圍。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究.pdf【免責聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者MATLAB訓練好的神經(jīng)網(wǎng)絡(luò)模型,將訓練好的模型的權(quán)重和偏置文件以TXT文件格式導出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe
    的頭像 發(fā)表于 06-03 15:51 ?1372次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析

    NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能

    近日,NVIDIA 宣布 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?1269次閱讀