91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT和DLA分析

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-18 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA DLA(Deep Learning Accelerator–深度學(xué)習(xí)加速器)是一款針對(duì)深度學(xué)習(xí)操作的固定功能加速器引擎。 DLA 旨在對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行全硬件加速。 DLA支持卷積、反卷積、全連接、激活、池化、批量歸一化等各種層,DLA不支持Explicit Quantization 。

trtexec在DLA 上運(yùn)行 ResNet-50 FP16 網(wǎng)絡(luò):

。/trtexec --onnx=data/resnet50/ResNet50.onnx --useDLACore=0 --fp16 --allowGPUFallback

trtexec在DLA 上運(yùn)行 ResNet-50 INT8 網(wǎng)絡(luò):

。/trtexec --onnx=data/resnet50/ResNet50.onnx --useDLACore=0 --int8 --allowGPUFallback

12.1. Running On DLA During TensorRT Inference

TensorRT 構(gòu)建器可以配置為在 DLA 上啟用推理。 DLA 支持目前僅限于在 FP16 或 INT8 模式下運(yùn)行的網(wǎng)絡(luò)。 DeviceType枚舉用于指定網(wǎng)絡(luò)或?qū)釉谄渖蠄?zhí)行的設(shè)備。 IBuilderConfig類中的以下 API 函數(shù)可用于配置網(wǎng)絡(luò)以使用 DLA:

setDeviceType(ILayer* layer, DeviceType deviceType)

此函數(shù)可用于設(shè)置層必須在其上執(zhí)行的設(shè)備類型

getDeviceType(const ILayer* layer)

此函數(shù)可用于返回該層執(zhí)行的設(shè)備類型。如果層在 GPU 上執(zhí)行,則返回DeviceType::kGPU 。

canRunOnDLA(const ILayer* layer)

此功能可用于檢查層是否可以在 DLA 上運(yùn)行。

setDefaultDeviceType(DeviceType deviceType)

此函數(shù)設(shè)置構(gòu)建器使用的默認(rèn)設(shè)備類型。它確保可以在 DLA 上運(yùn)行的所有層都在 DLA 上運(yùn)行,除非setDeviceType用于覆蓋層的deviceType 。

getDefaultDeviceType()

此函數(shù)返回由 setDefaultDeviceType 設(shè)置的默認(rèn)設(shè)備類型。

isDeviceTypeSet(const ILayer* layer)

此函數(shù)檢查是否已為該層顯式設(shè)置了deviceType 。

resetDeviceType(ILayer* layer)

此函數(shù)重置此層的deviceType 。如果未指定,該值將重置為由setDefaultDeviceType或DeviceType::kGPU指定的設(shè)備類型。

allowGPUFallback(bool setFallBackMode)

如果應(yīng)該在 DLA 上運(yùn)行的層無法在 DLA 上運(yùn)行,此函數(shù)會(huì)通知構(gòu)建器使用 GPU。有關(guān)詳細(xì)信息,請(qǐng)參閱GPU 回退模式。

reset()

此函數(shù)可用于重置IBuilderConfig狀態(tài),它將所有層的deviceType設(shè)置為DeviceType::kGPU 。重置后,構(gòu)建器可以重新用于構(gòu)建具有不同 DLA 配置的另一個(gè)網(wǎng)絡(luò)。

IBuilder類中的以下 API 函數(shù)可用于幫助配置網(wǎng)絡(luò)以使用 DLA:

getMaxDLABatchSize()

此函數(shù)返回 DLA 可以支持的最大批量大小。

注意:對(duì)于任何張量,索引維度的總體積加上請(qǐng)求的批量大小不得超過此函數(shù)返回的值。

getNbDLACores()

此函數(shù)返回用戶可用的 DLA 內(nèi)核數(shù)。

如果構(gòu)建器不可訪問,例如在推理應(yīng)用程序中在線加載計(jì)劃文件的情況下,則可以通過對(duì) IRuntime 使用 DLA 擴(kuò)展以不同方式指定要使用的DLA 。 IRuntime類中的以下 API 函數(shù)可用于配置網(wǎng)絡(luò)以使用 DLA:

getNbDLACores()

此函數(shù)返回用戶可訪問的 DLA 內(nèi)核數(shù)。

setDLACore(int dlaCore)

要在其上執(zhí)行的 DLA 內(nèi)核。其中dlaCore是介于0和getNbDLACores() - 1之間的值。默認(rèn)值為0

getDLACore()

運(yùn)行時(shí)執(zhí)行分配到的 DLA 核心。默認(rèn)值為 0。

12.1.1. Example: sampleMNIST With DLA

本節(jié)提供有關(guān)如何在啟用 DLA 的情況下運(yùn)行 TensorRT 示例的詳細(xì)信息。

位于 GitHub 存儲(chǔ)庫(kù)中的sampleMNIST演示了如何導(dǎo)入經(jīng)過訓(xùn)練的模型、構(gòu)建 TensorRT 引擎、序列化和反序列化引擎,最后使用引擎執(zhí)行推理。

該示例首先創(chuàng)建構(gòu)建器:

auto builder = SampleUniquePtr(nvinfer1::createInferBuilder(gLogger));
if (!builder) return false;
builder->setMaxBatchSize(batchSize);

然后,啟用GPUFallback模式:

config->setFlag(BuilderFlag::kGPU_FALLBACK);
config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);

在 DLA 上啟用執(zhí)行,其中dlaCore指定要在其上執(zhí)行的 DLA 內(nèi)核:

config->setDefaultDeviceType(DeviceType::kDLA);
config->setDLACore(dlaCore);

通過這些額外的更改,sampleMNIST 已準(zhǔn)備好在 DLA 上執(zhí)行。要使用 DLA Core 1 運(yùn)行 sampleMNIST,請(qǐng)使用以下命令:

 ./sample_mnist --useDLACore=0 [--int8|--fp16]

12.1.2. Example: Enable DLA Mode For A Layer During Network Creation

在這個(gè)例子中,讓我們創(chuàng)建一個(gè)包含輸入、卷積和輸出的簡(jiǎn)單網(wǎng)絡(luò)。

1.創(chuàng)建構(gòu)建器、構(gòu)建器配置和網(wǎng)絡(luò):

IBuilder* builder = createInferBuilder(gLogger);
IBuilderConfig* config = builder.createBuilderConfig();
INetworkDefinition* network = builder->createNetworkV2(0U);

2.使用輸入維度將輸入層添加到網(wǎng)絡(luò)。

auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{1, INPUT_H, INPUT_W});

3.添加具有隱藏層輸入節(jié)點(diǎn)、步幅和權(quán)重的卷積層以用于卷積核和偏差。

auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);
conv1->setStride(DimsHW{1, 1});

4.將卷積層設(shè)置為在 DLA 上運(yùn)行:

if(canRunOnDLA(conv1))
{
config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);
builder->setDeviceType(conv1, DeviceType::kDLA); 

}

5.標(biāo)記輸出

network->markOutput(*conv1->getOutput(0));

6.將 DLA 內(nèi)核設(shè)置為在以下位置執(zhí)行:

config->setDLACore(0)

12.2. DLA Supported Layers

本節(jié)列出了 DLA 支持的層以及與每個(gè)層相關(guān)的約束。

在 DLA 上運(yùn)行時(shí)的一般限制(適用于所有層)

支持的最大批量大小為 4096。

DLA 不支持動(dòng)態(tài)尺寸。因此,對(duì)于通配符維度,配置文件的min 、 max和opt值必須相等。

如果違反了任何限制,并且啟用了GpuFallback, TensorRT可以將DLA網(wǎng)絡(luò)分成多個(gè)部分。否則,TensorRT會(huì)發(fā)出錯(cuò)誤并返回。更多信息,請(qǐng)參考GPU回退模式。

由于硬件和軟件內(nèi)存限制,最多可以同時(shí)使用四個(gè) DLA 可加載項(xiàng)。

注意: DLA 的批量大小是除CHW維度之外的所有索引維度的乘積。例如,如果輸入維度為NPQRS ,則有效批量大小為N*P 。

層特定限制

卷積層和全連接層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

內(nèi)核大小的每個(gè)維度都必須在[1, 32]范圍內(nèi)。

填充(Padding)必須在[0, 31]范圍內(nèi)。

填充的維度必須小于相應(yīng)的內(nèi)核維度。

步幅的尺寸必須在[1, 8]范圍內(nèi)。

輸出映射的數(shù)量必須在[1, 8192]范圍內(nèi)。

對(duì)于使用格式TensorFormat::kLINEAR 、 TensorFormat::kCHW16和TensorFormat::kCHW32的操作,組數(shù)必須在[1, 8192]范圍內(nèi)。

對(duì)于使用格式TensorFormat::kCHW4的操作,組數(shù)必須在[1, 4]范圍內(nèi)。

空洞卷積(Dilated convolution )必須在[1, 32]范圍內(nèi)。

如果 CBUF 大小要求wtBanksForOneKernel + minDataBanks超過numConvBufBankAllotted限制16 ,則不支持操作,其中 CBUF 是在對(duì)輸入權(quán)重和激活進(jìn)行操作之前存儲(chǔ)輸入權(quán)重和激活的內(nèi)部卷積緩存, wtBanksForOneKernel是一個(gè)內(nèi)核存儲(chǔ)最小權(quán)重/卷積所需的核元素, minDataBanks是存儲(chǔ)卷積所需的最小激活數(shù)據(jù)的最小庫(kù)。偽代碼細(xì)節(jié)如下:

wtBanksForOneKernel = uint32(ceil(roundUp(inputDims_c * kernelSize_h * kernelSize_w * (INT8 ? 1 : 2), 128) / 32768.0))

minDataBanks = uint32(ceil(float(entriesPerDataSlice * dilatedKernelHt) / 256.0)) where entriesPerDataSlice = uint32(ceil(ceil(inputDims_c * (INT8 ? 1 : 2) / 32.0) * inputDims_w / 4.0)) and dilatedKernelHt = (kernelSize_h - 1) * dilation_h + 1

FAIL if wtBanksForOneKernel + minDataBanks > 16, PASS otherwise.

反卷積層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

除了1x[64, 96, 128]和[64, 96, 128]x1之外,內(nèi)核的尺寸必須在[1, 32]范圍內(nèi)。

TensorRT 在 DLA 上禁用了反卷積平方內(nèi)核并在[23 - 32]范圍內(nèi)跨步,因?yàn)樗鼈冿@著減慢了編譯速度。

填充(Padding)必須為0 。

分組反卷積必須為1 。

擴(kuò)張反卷積必須為1 。

輸入通道數(shù)必須在[1, 8192]范圍內(nèi)。

輸出通道數(shù)必須在[1, 8192]范圍內(nèi)。

池化層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

支持的操作: kMAX , kAVERAGE 。

窗口的尺寸必須在[1, 8]范圍內(nèi)。

填充的尺寸必須在[0, 7]范圍內(nèi)。

步幅的尺寸必須在[1, 16]范圍內(nèi)。

使用 INT8 模式,輸入和輸出張量標(biāo)度必須相同。

激活層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

支持的函數(shù): ReLU 、 Sigmoid 、 TanH 、 Clipped ReLU和Leaky ReLU 。

ReLU不支持負(fù)斜率。

Clipped ReLU僅支持[1, 127]范圍內(nèi)的值。

TanH , Sigmoid INT8 支持通過自動(dòng)升級(jí)到 FP16 來支持。

參數(shù) ReLU 層

斜率輸入必須是構(gòu)建時(shí)間常數(shù)。

ElementWise 層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

支持的操作: Sum 、 Sub 、 Product 、 Max和Min 。

注意:在 Xavier 上,TensorRT 將 DLA Scale 層和 DLA ElementWise 層與操作Sum連接以支持Sub操作,單個(gè) Xavier DLA ElementWise 層不支持。

Scale層

僅支持兩個(gè)空間維度操作。

支持 FP16 和 INT8。

支持的模式: Uniform 、 Per-Channel和ElementWise 。

僅支持縮放和移位操作。

LRN(局部響應(yīng)歸一化)層

允許的窗口大小為3 、 5 、 7或9 。

支持的規(guī)范化區(qū)域是ACROSS_CHANNELS 。

LRN INT8。

連接層

DLA 僅支持沿通道軸連接。

Concat 必須至少有兩個(gè)輸入。

所有輸入必須具有相同的空間維度。

對(duì)于 INT8 模式,所有輸入的動(dòng)態(tài)范圍必須相同。

對(duì)于 INT8 模式,輸出的動(dòng)態(tài)范圍必須等于每個(gè)輸入。

Resize層

刻度的數(shù)量必須正好是4 。

scale 中的前兩個(gè)元素必須正好為1 (對(duì)于未更改的批次和通道尺寸)。

scale 中的最后兩個(gè)元素,分別表示沿高度和寬度維度的比例值,在最近鄰模式下需要為[1, 32]范圍內(nèi)的整數(shù)值,在雙線性模式下需要為[1, 4]范圍內(nèi)的整數(shù)值。

Unary 層

僅支持 ABS 操作。

Softmax 層

僅支持 NVIDIA Orin?,不支持 Xavier?。

僅支持批量大小為 1 的單個(gè)輸入。

輸入的非批量、非軸維度都應(yīng)該是大小 1。例如,對(duì)于軸 = 1 的 softmax(即在 C 維度上),H 和 W 維度的大小都應(yīng)該是 1。

注意:當(dāng)使用 TensorRT 在 DLA 上運(yùn)行 INT8 網(wǎng)絡(luò)時(shí),建議將操作添加到同一子圖中,以通過允許它們?nèi)诤喜橹虚g結(jié)果保留更高的精度來減少在 DLA 上運(yùn)行的網(wǎng)絡(luò)的子圖上的量化誤差。通過將張量設(shè)置為網(wǎng)絡(luò)輸出張量來拆分子圖以檢查中間結(jié)果可能會(huì)由于禁用這些優(yōu)化而導(dǎo)致不同級(jí)別的量化誤差。

12.3. GPU Fallback Mode

如果被標(biāo)記為在DLA上運(yùn)行的層不能在DLA上運(yùn)行,則GPUFallbackMode設(shè)置生成器使用GPU。

由于以下原因,層無法在 DLA 上運(yùn)行:

DLA 不支持層操作。

指定的參數(shù)超出了 DLA 支持的范圍。

給定的批量大小超過了允許的最大 DLA 批量大小。有關(guān)詳細(xì)信息,請(qǐng)參閱DLA 支持的層。

網(wǎng)絡(luò)中的層組合導(dǎo)致內(nèi)部狀態(tài)超過 DLA 能夠支持的狀態(tài)。

平臺(tái)上沒有可用的 DLA 引擎。

如果GPUFallbackMode設(shè)置為false ,則設(shè)置為在 DLA 上執(zhí)行但無法在 DLA 上運(yùn)行的層會(huì)導(dǎo)致錯(cuò)誤。但是,將GPUFallbackMode設(shè)置為true后,它會(huì)在報(bào)告警告后繼續(xù)在 GPU 上執(zhí)行。

同樣,如果defaultDeviceType設(shè)置為DeviceType::kDLA并且GPUFallbackMode設(shè)置為false ,則如果任何層無法在 DLA 上運(yùn)行,則會(huì)導(dǎo)致錯(cuò)誤。將GPUFallbackMode設(shè)置為true時(shí),它會(huì)報(bào)告警告并繼續(xù)在 GPU 上執(zhí)行。

如果網(wǎng)絡(luò)中的層組合無法在 DLA 上運(yùn)行,則組合中的所有層都在 GPU 上執(zhí)行。

12.4. I/O Formats on DLA

DLA 支持設(shè)備獨(dú)有的格式,并且由于矢量寬度字節(jié)要求而對(duì)其布局有限制。

對(duì)于 DLA 輸入,支持 kDLA_LINEAR ( FP16 , INT8 )、 kDLA_HWC4 ( FP16 , INT8 )、 kCHW16 ( FP16 ) 和kCHW32 ( INT8 )。對(duì)于 DLA 輸出,僅支持 kDLA_LINEAR ( FP16 , INT8 )、 kCHW16 ( FP16 ) 和kCHW32 ( INT8 )。對(duì)于kCHW16和kCHW32格式,如果C不是整數(shù)倍,則必須將其填充到下一個(gè) 32 字節(jié)邊界。

對(duì)于kDLA_LINEAR格式,沿W維度的步幅必須最多填充 64 個(gè)字節(jié)。內(nèi)存格式等效于維度為[N][C][H][roundUp(W, 64/elementSize)]的C數(shù)組,其中FP16的elementSize為 2, Int8為 1 ,張量坐標(biāo)為(n, c, h, w)映射到數(shù)組下標(biāo)[n][c][h][w] 。

對(duì)于kDLA_HWC4格式,沿W維度的步幅必須是 Xavier 上 32 字節(jié)和 Orin 上 64 字節(jié)的倍數(shù)。

當(dāng)C == 1時(shí),TensorRT 將格式映射到本機(jī)灰度圖像格式。

當(dāng)C == 3或C == 4時(shí),它映射到本機(jī)彩色圖像格式。如果C == 3 ,沿W軸步進(jìn)的步幅需要填充為 4 個(gè)元素。在這種情況下,填充通道位于第 4 個(gè)索引處。理想情況下,填充值無關(guān)緊要,因?yàn)闄?quán)重中的第 4 個(gè)通道被 DLA 編譯器填充為零;但是,應(yīng)用程序分配四個(gè)通道的零填充緩沖區(qū)并填充三個(gè)有效通道是安全的。

當(dāng)C為{1, 3, 4}時(shí),填充后的 C‘分別為{1, 4, 4} ,內(nèi)存布局等價(jià)于維度為[N][H][roundUp(W, 32/C’/elementSize)][C‘]的C數(shù)組, 其中elementSize對(duì)于FP16為 2,對(duì)于Int8為 1 。張量坐標(biāo)(n, c, h, w)映射到數(shù)組下標(biāo)[n][h][w][c] , roundUp計(jì)算大于或等于W的64/elementSize的最小倍數(shù)。

使用kDLA_HWC4作為 DLA 輸入格式時(shí),有以下要求:

C必須是1 、 3或4

第一層必須是卷積。

卷積參數(shù)必須滿足 DLA 要求,請(qǐng)參閱DLA Supported Layers 。

當(dāng)EngineCapability為EngineCapability::kSTANDARD且 TensorRT 無法為給定的輸入/輸出格式生成無重構(gòu)網(wǎng)絡(luò)時(shí),可以自動(dòng)將不支持的 DLA 格式轉(zhuǎn)換為支持的 DLA 格式。例如,如果連接到網(wǎng)絡(luò)輸入或輸出的層不能在 DLA 上運(yùn)行,或者如果網(wǎng)絡(luò)不滿足其他 DLA 要求,則插入重新格式化操作以滿足約束。在所有情況下,TensorRT 期望數(shù)據(jù)格式化的步幅都可以通過查詢IExecutionContext::getStrides來獲得。

12.5. DLA Standalone Mode

如果您使用單獨(dú)的 DLA 運(yùn)行時(shí)組件,則可以使用EngineCapability::kDLA_STANDALONE生成 DLA 可加載項(xiàng)。請(qǐng)參閱相關(guān) DLA 運(yùn)行時(shí)組件的文檔以了解如何使用可加載項(xiàng)。

當(dāng)使用kDLA_STANDALONE時(shí),TensorRT 為給定的輸入/輸出格式生成一個(gè)無重新格式化的網(wǎng)絡(luò)。對(duì)于 DLA 輸入,支持 kLINEAR ( FP16 , INT8 )、 kCHW4 ( FP16 , INT8 )、 kCHW16 ( FP16 ) 和kCHW32 ( INT8 )。而對(duì)于 DLA 輸出,僅支持 kLINEAR ( FP16 , INT8 )、 kCHW16 ( FP16 ) 和kCHW32 ( INT8 )。對(duì)于kCHW16和kCHW32格式,建議C通道數(shù)等于向量大小的正整數(shù)倍。如果C不是整數(shù)倍,則必須將其填充到下一個(gè) 32 字節(jié)邊界。

12.6. Customizing DLA Memory Pools

您可以自定義分配給網(wǎng)絡(luò)中每個(gè)可加載的 DLA 的內(nèi)存池的大小。共有三種類型的 DLA 內(nèi)存池(有關(guān)每個(gè)池的描述,請(qǐng)參見枚舉類 MemoryPoolType ):

Managed SRAM

Local DRAM

Global DRAM

對(duì)于每種池類型,使用 API IBuilderConfig::setMemoryPoolLimit和IBuilderConfig::getMemoryPoolLimit來設(shè)置和查詢相關(guān)池的大小,以便為每個(gè)可加載的 DLA 分配更大的內(nèi)存池。每個(gè)可加載的實(shí)際需要的內(nèi)存量可能小于池大小,在這種情況下將分配較小的量。池大小僅用作上限。

請(qǐng)注意,所有 DLA 內(nèi)存池都需要大小為 2 的冪,最小為 4 KiB。違反此要求會(huì)導(dǎo)致 DLA 可加載編譯失敗。

Managed SRAM 與其他 DRAM 池的區(qū)別主要在于角色的不同。以下是Managed SRAM 的一些值得注意的方面:

它類似于緩存,因?yàn)橘Y源稀缺,DLA 可以通過回退到本地 DRAM 來運(yùn)行而無需它。

任何分配往往都會(huì)被充分利用。因此,報(bào)告的 SRAM 通常與分配的 SRAM 池的數(shù)量相同(在某些情況下可能與用戶指定的大小不同)。

由于類似于緩存的性質(zhì),DLA 在 SRAM 不足時(shí)會(huì)回退到 DRAM,而不是失敗。因此,如果可以負(fù)擔(dān)得起,即使在成功的引擎構(gòu)建之后也嘗試增加 SRAM 的數(shù)量,以查看推理速度是否有任何提升。這尤其適用于卸載許多子圖的網(wǎng)絡(luò)。

Orin 和 Xavier 在每個(gè)內(nèi)核可用的最大 SRAM 數(shù)量方面存在差異:Xavier 在 4 個(gè)內(nèi)核(包括 2 個(gè) DLA 內(nèi)核)中提供總共 4 MiB 的 SRAM,而 Orin 為每個(gè) DLA 內(nèi)核專用 1 MiB SRAM。這意味著當(dāng)在一個(gè)設(shè)備上運(yùn)行多個(gè)網(wǎng)絡(luò)時(shí),Xavier 需要明確控制總體 SRAM 消耗,而 Orin 在這方面不必?fù)?dān)心。

在多子圖情況下,重要的是要記住池大小適用于每個(gè) DLA 子圖,而不是整個(gè)網(wǎng)絡(luò)。

關(guān)于作者

Ken He 是 NVIDIA 企業(yè)級(jí)開發(fā)者社區(qū)經(jīng)理 & 高級(jí)講師,擁有多年的 GPU 和人工智能開發(fā)經(jīng)驗(yàn)。自 2017 年加入 NVIDIA 開發(fā)者社區(qū)以來,完成過上百場(chǎng)培訓(xùn),幫助上萬個(gè)開發(fā)者了解人工智能和 GPU 編程開發(fā)。在計(jì)算機(jī)視覺,高性能計(jì)算領(lǐng)域完成過多個(gè)獨(dú)立項(xiàng)目。并且,在機(jī)器人無人機(jī)領(lǐng)域,有過豐富的研發(fā)經(jīng)驗(yàn)。對(duì)于圖像識(shí)別,目標(biāo)的檢測(cè)與跟蹤完成過多種解決方案。曾經(jīng)參與 GPU 版氣象模式GRAPES,是其主要研發(fā)者。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107856
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109804
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124417
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    超擎數(shù)智為您深度解析NVIDIA Quantum-X800 InfiniBand平臺(tái)

    NVIDIA
    專精特新
    發(fā)布于 :2026年01月08日 19:47:03

    NVIDIA宣布開源Aerial軟件

    NVIDIA 開源其 Aerial 軟件,并將 NVIDIA Sionna 研究套件和 Aerial 測(cè)試平臺(tái)引入 NVIDIA DGX Spark 平臺(tái),為研究人員提供強(qiáng)大的工具和便捷的訪問途徑,以加速 AI 原生無線創(chuàng)新。
    的頭像 發(fā)表于 11-03 15:14 ?924次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1196次閱讀

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1119次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4469次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品 NVIDIA RTX 4500 Ada Generation 具體有哪些
    的頭像 發(fā)表于 08-28 11:02 ?4018次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell GPU測(cè)試<b class='flag-5'>分析</b>

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹 TensorRT-LLM 分離式服務(wù)的設(shè)計(jì)理念、使用方法,以及性能研究結(jié)果。
    的頭像 發(fā)表于 08-27 12:29 ?1766次閱讀
    <b class='flag-5'>TensorRT</b>-LLM中的分離式服務(wù)

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2063次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫(kù),可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2206次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3303次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1907次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了機(jī)器人仿真參考應(yīng)用 NVIDIA Isaac Sim 和機(jī)器人學(xué)習(xí)框架 NVIDIA Isaac Lab 的更新,以加速各種形態(tài)機(jī)器人的開發(fā)。
    的頭像 發(fā)表于 05-28 10:06 ?2145次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?1170次閱讀
    <b class='flag-5'>NVIDIA</b>加速的Apache Spark助力企業(yè)節(jié)省大量成本

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
    的頭像 發(fā)表于 03-20 18:35 ?3075次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?2489次閱讀