91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實(shí)現(xiàn)高性能矩陣乘法

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級(jí)別和規(guī)模上實(shí)現(xiàn)高性能矩陣乘法( GEMM )。它結(jié)合了分層分解和數(shù)據(jù)移動(dòng)的策略,類似于用于實(shí)現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運(yùn)動(dòng)部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設(shè)備范圍的原語(yǔ)可以通過(guò)自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進(jìn)行專門化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡(jiǎn)化了它們?cè)诙ㄖ苾?nèi)核和應(yīng)用程序中作為構(gòu)建塊的使用。

為了支持多種應(yīng)用程序, CUTLASS 為混合精度計(jì)算提供了廣泛的支持,提供了專門的數(shù)據(jù)移動(dòng),并為以下各項(xiàng)提供了多重累積抽象:

半精度浮點(diǎn)(FP16)、 BFloat16 (BF16)和張量浮點(diǎn) 32 (TF32)數(shù)據(jù)類型。

單精度浮點(diǎn)(FP32)數(shù)據(jù)類型。

雙精度浮點(diǎn)(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進(jìn)制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對(duì) NVIDIA Volta 、 Turing 和 Ampere 體系結(jié)構(gòu)上實(shí)現(xiàn)的可編程、高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實(shí)現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運(yùn)算的公式。這允許 Cutslass 通過(guò)重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來(lái)構(gòu)建卷積。

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國(guó) AL-Huntsville 的美國(guó)陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗(yàn)證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學(xué)位。計(jì)算機(jī)工程學(xué)位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109720
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    127

    瀏覽量

    14475
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    CDCVF25084:高性能時(shí)鐘乘法器的深度剖析

    CDCVF25084:高性能時(shí)鐘乘法器的深度剖析 在電子設(shè)計(jì)領(lǐng)域,時(shí)鐘信號(hào)的處理至關(guān)重要,它直接影響著整個(gè)系統(tǒng)的穩(wěn)定性和性能。今天,我們就來(lái)深入探討德州儀器(Texas Instruments
    的頭像 發(fā)表于 02-10 13:50 ?150次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學(xué)習(xí) NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?4816次閱讀
    如何在NVIDIA CUDA Tile中編寫<b class='flag-5'>高性能</b><b class='flag-5'>矩陣</b><b class='flag-5'>乘法</b>

    深入剖析ADL5391:高性能模擬乘法器的卓越之選

    深入剖析ADL5391:高性能模擬乘法器的卓越之選 在電子工程師的設(shè)計(jì)工具箱中,模擬乘法器是實(shí)現(xiàn)各種復(fù)雜信號(hào)處理功能的關(guān)鍵組件。今天,我們要深入探討一款來(lái)自Analog Devices
    的頭像 發(fā)表于 01-15 15:05 ?205次閱讀

    深入剖析AD632:高性能四象限乘法器/除法器

    深入剖析AD632:高性能四象限乘法器/除法器 在電子工程師的日常設(shè)計(jì)中,高性能的模擬信號(hào)處理芯片是不可或缺的工具。今天,我們就來(lái)詳細(xì)探討一下Analog Devices公司的AD632——一款內(nèi)部
    的頭像 發(fā)表于 01-15 15:00 ?170次閱讀

    高性能四象限模擬乘法器AD734:精準(zhǔn)與高速的完美結(jié)合

    高性能四象限模擬乘法器AD734:精準(zhǔn)與高速的完美結(jié)合 在電子設(shè)計(jì)領(lǐng)域,高性能模擬乘法器一直是實(shí)現(xiàn)復(fù)雜信號(hào)處理和精確控制的關(guān)鍵組件。今天,我
    的頭像 發(fā)表于 01-15 14:55 ?218次閱讀

    高性能模擬乘法器AD834:特點(diǎn)、應(yīng)用與設(shè)計(jì)要點(diǎn)

    高性能模擬乘法器AD834:特點(diǎn)、應(yīng)用與設(shè)計(jì)要點(diǎn) 引言 在電子工程師的日常工作中,高性能模擬乘法器是實(shí)現(xiàn)各種復(fù)雜信號(hào)處理和計(jì)算的關(guān)鍵元件。A
    的頭像 發(fā)表于 01-15 14:55 ?196次閱讀

    AD539:高性能寬帶雙聲道線性乘法/除法器的深度剖析

    AD539:高性能寬帶雙聲道線性乘法/除法器的深度剖析 在電子工程師的日常設(shè)計(jì)工作中,尋找高性能、多功能的模擬器件至關(guān)重要。AD539作為一款低失真模擬乘法器,具有雙信號(hào)通道和線性增益
    的頭像 發(fā)表于 01-15 14:45 ?226次閱讀

    AD532:高性能單芯片乘法器/除法器的卓越之選

    AD532:高性能單芯片乘法器/除法器的卓越之選 在電子設(shè)計(jì)領(lǐng)域,乘法器和除法器是實(shí)現(xiàn)復(fù)雜運(yùn)算和信號(hào)處理的關(guān)鍵組件。而AD532作為一款預(yù)微調(diào)的單芯片
    的頭像 發(fā)表于 01-15 14:45 ?223次閱讀

    SLG47525/28:高性能可編程混合信號(hào)矩陣的深度剖析

    SLG47525/28:高性能可編程混合信號(hào)矩陣的深度剖析 在電子設(shè)計(jì)領(lǐng)域,尋求小型化、低功耗且功能強(qiáng)大的組件是永恒的追求。Renesas的SLG47525/28可編程混合信號(hào)矩陣就是這樣一款
    的頭像 發(fā)表于 12-26 18:15 ?1043次閱讀

    一個(gè)提升蜂鳥E203性能的方法:乘除法器優(yōu)化

    性能十分低下。 對(duì)于乘法操作,為了減少乘法操作所需的周期數(shù), MDV 對(duì)乘法采用基 (Radix-4 ) 的Booth 編碼,進(jìn)行一次乘法
    發(fā)表于 10-27 07:16

    關(guān)于E203內(nèi)核高性能乘法器優(yōu)化(二)

    不同加法樹與乘法器結(jié)合 1.傳統(tǒng)Booth算法+Wallace樹加法器 以下數(shù)據(jù)在32位寬乘法實(shí)現(xiàn)時(shí)結(jié)果供參考: 相同條件下,陣列乘法器面積最小,Wallace樹
    發(fā)表于 10-23 07:33

    關(guān)于E203內(nèi)核高性能乘法器優(yōu)化(一)

    一、簡(jiǎn)介 對(duì)于cpu各類測(cè)試程序,設(shè)計(jì)一個(gè)高性能的硬件乘法器模塊無(wú)疑是提分最快的法案,本文將從乘法算法開始,到rtl設(shè)計(jì)進(jìn)行詳細(xì)的解釋說(shuō)明,并附帶一部分源碼。 二、乘法算法
    發(fā)表于 10-23 06:09

    蜂鳥乘法器設(shè)計(jì)分享

    ,蜂鳥E203中乘法實(shí)現(xiàn)使用基4(Radix-4)的Booth編碼,共產(chǎn)生16個(gè)部分積,最終采用循環(huán)移位方式計(jì)算最終結(jié)果,以犧牲性能的方式換取了面積損耗。
    發(fā)表于 10-22 08:21

    e203乘法運(yùn)算結(jié)構(gòu)及算法原理

    e203乘法部件結(jié)構(gòu) E203的乘法操作由一個(gè)17周期的乘法實(shí)現(xiàn)。為了提升性能,該乘法器采用
    發(fā)表于 10-22 06:43

    Arm KleidiAI與XNNPack集成實(shí)現(xiàn)AI性能提升

    INT4 矩陣乘法 (matmul) 優(yōu)化以增強(qiáng) Google Gemma 2 模型性能開始,到后續(xù)完成多項(xiàng)底層技術(shù)增強(qiáng),Arm 在 XNNPack 上實(shí)現(xiàn)了顯著的
    的頭像 發(fā)表于 08-08 15:19 ?2801次閱讀
    Arm KleidiAI與XNNPack集成<b class='flag-5'>實(shí)現(xiàn)</b>AI<b class='flag-5'>性能</b>提升