完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>
標(biāo)簽 > cuda
文章:103個 瀏覽:14495次 帖子:19個
單精度矩陣乘法(SGEMM)幾乎是每一位學(xué)習(xí) CUDA 的同學(xué)繞不開的案例,這個經(jīng)典的計算密集型案例可以很好地展示 GPU 編程中常用的優(yōu)化技巧。本文將...
無需實例或類級別3D模型的對新穎物體的6D姿態(tài)追蹤
跟蹤RGBD視頻中物體的6D姿態(tài)對機器人操作很重要。然而,大多數(shù)先前的工作通常假設(shè)目標(biāo)對象的CAD 模型,至少類別級別,可用于離線訓(xùn)練或在線測試階段模板匹配。
協(xié)作組編程模型描述了 CUDA 線程塊內(nèi)和跨線程塊的同步模式。 它為應(yīng)用程序提供了定義它們自己的線程組的方法,以及同步它們的接口。 它還提供了強制執(zhí)行某...
運行時在cudart庫中實現(xiàn),該庫通過cudart靜態(tài)地鏈接到應(yīng)用程序。
2023-05-19 標(biāo)簽:MPSCUDAcache技術(shù) 2.5k 0
構(gòu)造具有動態(tài)參數(shù)的CUDA圖表
通過這種構(gòu)建CUDA圖的方法,由CUDA內(nèi)核和CUDA內(nèi)存操作形成的圖節(jié)點通過調(diào)用cudaGraphAdd*節(jié)點API添加到圖中,其中*被替換為節(jié)點...
總結(jié)FasterTransformer Encoder優(yōu)化技巧
FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。
計算能力9.0中引入的線程塊集群為線程塊集群中的線程提供了訪問集群中所有參與線程塊的共享內(nèi)存的能力。
GPU和CPU之間的功能差異之所以存在,是因為它們的設(shè)計目標(biāo)不同。雖然CPU被設(shè)計為盡可能快地執(zhí)行一系列操作(稱為線程),并且可以并行執(zhí)行幾十個線程,但...
CUDA之所以會成為算力芯片硬件廠商必須要認(rèn)真考慮的一個選擇,最直接的原因,是其已經(jīng)實現(xiàn)了與算法客戶的強綁定。眾多算法工程師已經(jīng)習(xí)慣了CUDA提供的工具...
神經(jīng)網(wǎng)絡(luò)能加速的有很多,當(dāng)然使用硬件加速是最可觀的了,而目前除了專用的NPU(神經(jīng)網(wǎng)絡(luò)加速單元),就屬于GPU對神經(jīng)網(wǎng)絡(luò)加速效果最好了
2024-03-05 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)gpusram 1.8k 0
借助PerfXCloud和dify開發(fā)代碼轉(zhuǎn)換器
隨著深度學(xué)習(xí)與高性能計算的迅速發(fā)展,GPU計算的廣泛應(yīng)用已成為推動技術(shù)革新的一股重要力量。對于GPU編程語言的選擇,CUDA和HIP是目前最為流行的兩種...
2025-02-25 標(biāo)簽:轉(zhuǎn)換器amd代碼 1.6k 0
NVIDIA DOCA GPUNetIO庫如何克服以前DPDK解決方案中的一些限制
網(wǎng)絡(luò)數(shù)據(jù)包的實時 GPU 處理是一種適用于幾個不同應(yīng)用領(lǐng)域的技術(shù),包括信號處理、網(wǎng)絡(luò)安全、信息收集和輸入重建。
2023-06-21 標(biāo)簽:處理器存儲器NVIDIA技術(shù) 1.6k 0
編程模型中介紹了核心語言擴展。它們允許程序員將內(nèi)核定義為c++函數(shù),并在每次調(diào)用函數(shù)時使用一些新的語法來指定網(wǎng)格和塊維度。
解析OneFlow BatchNorm相關(guān)算子實現(xiàn)
可以看到 CUDNN_BATCHNORM_PER_ACTIVATION 被用于非卷積層,在OneFlow中只有當(dāng)輸入Tensor的維度為2時才選取這種模...
換一批
編輯推薦廠商產(chǎn)品技術(shù)軟件/工具OS/語言教程專題
| 電機控制 | DSP | 氮化鎵 | 功率放大器 | ChatGPT | 自動駕駛 | TI | 瑞薩電子 |
| BLDC | PLC | 碳化硅 | 二極管 | OpenAI | 元宇宙 | 安森美 | ADI |
| 無刷電機 | FOC | IGBT | 逆變器 | 文心一言 | 5G | 英飛凌 | 羅姆 |
| 直流電機 | PID | MOSFET | 傳感器 | 人工智能 | 物聯(lián)網(wǎng) | NXP | 賽靈思 |
| 步進電機 | SPWM | 充電樁 | IPM | 機器視覺 | 無人機 | 三菱電機 | ST |
| 伺服電機 | SVPWM | 光伏發(fā)電 | UPS | AR | 智能電網(wǎng) | 國民技術(shù) | Microchip |
| Arduino | BeagleBone | 樹莓派 | STM32 | MSP430 | EFM32 | ARM mbed | EDA |
| 示波器 | LPC | imx8 | PSoC | Altium Designer | Allegro | Mentor | Pads |
| OrCAD | Cadence | AutoCAD | 華秋DFM | Keil | MATLAB | MPLAB | Quartus |
| C++ | Java | Python | JavaScript | node.js | RISC-V | verilog | Tensorflow |
| Android | iOS | linux | RTOS | FreeRTOS | LiteOS | RT-THread | uCOS |
| DuerOS | Brillo | Windows11 | HarmonyOS |