91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像預(yù)處理庫(kù) CV-CUDA 開(kāi)源了,打破預(yù)處理瓶頸,提升推理吞吐量 20 多倍

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2022-12-26 22:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)載自機(jī)器之心

當(dāng) CPU 圖像預(yù)處理成為視覺(jué)任務(wù)的瓶頸,最新開(kāi)源的 CV-CUDA,將為圖像預(yù)處理算子提速百倍。

在如今信息化時(shí)代中,圖像或者說(shuō)視覺(jué)內(nèi)容早已成為日常生活中承載信息最主要的載體,深度學(xué)習(xí)模型憑借著對(duì)視覺(jué)內(nèi)容強(qiáng)大的理解能力,能對(duì)其進(jìn)行各種處理與優(yōu)化。

然而在以往的視覺(jué)模型開(kāi)發(fā)與應(yīng)用中,我們更關(guān)注模型本身的優(yōu)化,提升其速度與效果。相反,對(duì)于圖像的預(yù)處理與后處理階段,很少認(rèn)真思考如何去優(yōu)化它們。所以,當(dāng)模型計(jì)算效率越來(lái)越高,反觀圖像的預(yù)處理與后處理,沒(méi)想到它們竟成了整個(gè)圖像任務(wù)的瓶頸。

為了解決這樣的瓶頸,NVIDIA 攜手字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)開(kāi)源眾多圖像預(yù)處理算子庫(kù) CV-CUDA,它們能高效地運(yùn)行在 GPU 上,算子速度能達(dá)到 OpenCV(運(yùn)行在 CPU)的百倍左右。如果我們使用 CV-CUDA 作為后端替換 OpenCV 和 TorchVision,整個(gè)推理的吞吐量能達(dá)到原來(lái)的二十多倍。此外,不僅是速度的提升,同時(shí)在效果上 CV-CUDA 在計(jì)算精度上已經(jīng)對(duì)齊了 OpenCV,因此訓(xùn)練推理能無(wú)縫銜接,大大降低工程師的工作量。

feab39c2-852b-11ed-bfe3-dac502259ad0.png

以圖像背景模糊算法為例,將 CV-CUDA 替換 OpenCV 作為圖像預(yù)/后處理的后端,整個(gè)推理過(guò)程吞吐量能加 20多倍。

如果小伙伴們想試試更快、更好用的視覺(jué)預(yù)處理庫(kù),可以試試這一開(kāi)源工具。

開(kāi)源地址:https://github.com/CVCUDA/CV-CUDA

圖像預(yù)/后處理已成為CV瓶頸

很多涉及到工程與產(chǎn)品的算法工程師都知道,雖然我們常常只討論模型結(jié)構(gòu)和訓(xùn)練任務(wù)這類(lèi)「前沿研究」,但實(shí)際要做成一個(gè)可靠的產(chǎn)品,中間會(huì)遇到很多工程問(wèn)題,反而模型訓(xùn)練是最輕松的一環(huán)了。

圖像預(yù)處理就是這樣的工程難題,我們也許在實(shí)驗(yàn)或者訓(xùn)練中只是簡(jiǎn)單地調(diào)用一些 API 對(duì)圖像進(jìn)行幾何變換、濾波、色彩變換等等,很可能并不是特別在意。但是當(dāng)我們重新思考整個(gè)推理流程時(shí)會(huì)發(fā)現(xiàn),圖像預(yù)處理已經(jīng)成為了性能瓶頸,尤其是對(duì)于預(yù)處理過(guò)程復(fù)雜的視覺(jué)任務(wù)。

這樣的性能瓶頸,主要體現(xiàn)在 CPU 上。一般而言,對(duì)于常規(guī)的圖像處理流程,我們都會(huì)先在 CPU 上進(jìn)行預(yù)處理,再放到 GPU 運(yùn)行模型,最后又會(huì)回到 CPU,并可能需要做一些后處理。

febdce84-852b-11ed-bfe3-dac502259ad0.png

以圖像背景模糊算法為例,常規(guī)的圖像處理流程中預(yù)后處理主要在 CPU 完成,占據(jù)整體 90% 的工作負(fù)載,其已經(jīng)成為該任務(wù)的瓶頸。

因此對(duì)于視頻應(yīng)用,或者 3D 圖像建模等復(fù)雜場(chǎng)景,因?yàn)閳D像幀的數(shù)量或者圖像信息足夠大,預(yù)處理過(guò)程足夠復(fù)雜,并且延遲要求足夠低,優(yōu)化預(yù)/后處理算子就已經(jīng)迫在眉睫了。一個(gè)更好地做法,當(dāng)然是替換掉 OpenCV,使用更快的解決方案。

為什么 OpenCV 仍不夠好?

在 CV 中,應(yīng)用最廣泛的圖像處理庫(kù)當(dāng)然就是長(zhǎng)久維護(hù)的 OpenCV 了,它擁有非常廣泛的圖像處理操作,基本能滿(mǎn)足各種視覺(jué)任務(wù)的預(yù)/后處理所需。但是隨著圖像任務(wù)負(fù)載的加大,它的速度已經(jīng)有點(diǎn)慢慢跟不上了,因?yàn)?OpenCV 絕大多數(shù)圖像操作都是 CPU 實(shí)現(xiàn),缺少 GPU 實(shí)現(xiàn),或者 GPU 實(shí)現(xiàn)本來(lái)就存在一些問(wèn)題。

在 NVIDIA 與字節(jié)跳動(dòng)算法同學(xué)的研發(fā)經(jīng)驗(yàn)中,他們發(fā)現(xiàn) OpenCV 中那些少數(shù)有 GPU 實(shí)現(xiàn)的算子存在三大問(wèn)題:

  1. 部分算子的 CPU 和 GPU 結(jié)果精度無(wú)法對(duì)齊;

  2. 部分算子 GPU 性能比 CPU 性能還弱;

  3. 同時(shí)存在各種 CPU 算子與各種GPU算子,當(dāng)處理流程需要同時(shí)使用兩種,就額外增加了內(nèi)存與顯存中的空間申請(qǐng)與數(shù)據(jù)遷移/數(shù)據(jù)拷貝


比如說(shuō)第一個(gè)問(wèn)題結(jié)果精度無(wú)法對(duì)齊,NVIDIA 與字節(jié)跳動(dòng)算法同學(xué)會(huì)發(fā)現(xiàn),當(dāng)我們?cè)谟?xùn)練時(shí) OpenCV 某個(gè)算子使用了 CPU,但是推理階段考慮到性能問(wèn)題,換而使用 OpenCV 對(duì)應(yīng)的 GPU 算子,也許 CPU 和 GPU 結(jié)果精度無(wú)法對(duì)齊,導(dǎo)致整個(gè)推理過(guò)程出現(xiàn)精度上的異常。當(dāng)出現(xiàn)這樣的問(wèn)題,要么換回 CPU 實(shí)現(xiàn),要么需要費(fèi)很多精力才有可能重新對(duì)齊精度,是個(gè)不好處理的難題。

既然 OpenCV 仍不夠好,可能有讀者會(huì)問(wèn),那 Torchvision 呢?它其實(shí)會(huì)面臨和 OpenCV 一樣的問(wèn)題,除此之外,工程師部署模型為了效率更可能使用 C++ 實(shí)現(xiàn)推理過(guò)程,因此將沒(méi)辦法使用 Torchvision 而需要轉(zhuǎn)向 OpenCV 這樣的 C++視覺(jué)庫(kù),這不就帶來(lái)了另一個(gè)難題:對(duì)齊 Torchvision 與 OpenCV 的精度。

總的來(lái)說(shuō),目前視覺(jué)任務(wù)在 CPU 上的預(yù)/后處理已經(jīng)成為了瓶頸,然而當(dāng)前 OpenCV 之類(lèi)的傳統(tǒng)工具也沒(méi)辦法很好地處理。因此,將操作遷移到 GPU 上,完全基于 CUDA 實(shí)現(xiàn)的高效圖像處理算子庫(kù) CV-CUDA,就成為了新的解決方案。

fed7073c-852b-11ed-bfe3-dac502259ad0.png

完全在 GPU 上進(jìn)行預(yù)處理與后處理,將大大降低圖像處理部分的 CPU 瓶頸。

GPU 圖像處理加速庫(kù):CV-CUDA

作為基于 CUDA 的預(yù)/后處理算子庫(kù),算法工程師可能最期待的是三點(diǎn):足夠快、足夠通用、足夠易用。NVIDIA 和字節(jié)跳動(dòng)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)聯(lián)合開(kāi)發(fā)的 CV-CUDA 正好能滿(mǎn)足這三點(diǎn),利用 GPU 并行計(jì)算能力提升算子速度,對(duì)齊 OpenCV 操作結(jié)果足夠通用,對(duì)接 C++/Python 接口足夠易用。

CV-CUDA 的速度

CV-CUDA 的快,首先體現(xiàn)在高效的算子實(shí)現(xiàn),畢竟是 NVIDIA 寫(xiě)的,CUDA 并行計(jì)算代碼肯定經(jīng)過(guò)大量的優(yōu)化的。其次是它支持批量操作,這就能充分利用 GPU 設(shè)備的計(jì)算能力,相比 CPU 上一張張圖像串行執(zhí)行,批量操作肯定是要快很多的。最后,還得益于 CV-CUDA 適配的 Volta、Turing、Ampere 等 GPU 架構(gòu),在各 GPU 的 CUDA kernel 層面進(jìn)行了性能上的高度優(yōu)化,從而獲得最好的效果。也就是說(shuō),用的 GPU 卡越好,其加速能力越夸張。

正如前文的背景模糊吞吐量加速比圖,如果采用 CV-CUDA 替代 OpenCV 和 TorchVision 的前后處理后,整個(gè)推理流程的吞吐率提升 20多倍。其中預(yù)處理對(duì)圖像做 Resize、Padding、Image2Tensor 等操作,后處理對(duì)預(yù)測(cè)結(jié)果做的 Tensor2Mask、Crop、Resize、Denoise 等操作。

fee96abc-852b-11ed-bfe3-dac502259ad0.png

在同一個(gè)計(jì)算節(jié)點(diǎn)上(2x Intel Xeon Platinum 8168 CPUs,1x NVIDIA A100 GPU),以 30fps 的幀率處理 1080p 視頻,采用不同 CV 庫(kù)所能支持的最大的并行流數(shù)。測(cè)試采用了 4 個(gè)進(jìn)程,每個(gè)進(jìn)程 batchSize 為 64。

對(duì)于單個(gè)算子的性能,NVIDIA 和字節(jié)跳動(dòng)的小伙伴也做了性能測(cè)試,很多算子在 GPU 上的吞吐量能達(dá)到 CPU 的百倍。

ff0ce690-852b-11ed-bfe3-dac502259ad0.png

圖片大小為 480*360,CPU 選擇為 Intel(R) Core(TM) i9-7900X,BatchSize 大小為 1,進(jìn)程數(shù)為 1

盡管預(yù)/后處理算子很多都不是單純的矩陣乘法等運(yùn)算,為了達(dá)到上述高效的性能,CV-CUDA 其實(shí)做了很多算子層面的優(yōu)化。例如采用大量的 kernel 融合策略,減少了 kernel launch 和 global memory 的訪問(wèn)時(shí)間;優(yōu)化訪存以提升數(shù)據(jù)讀寫(xiě)效率;所有算子均采用異步處理的方式,以減少同步等待的耗時(shí)等等。

CV-CUDA 的通用與靈活

運(yùn)算結(jié)果的穩(wěn)定,對(duì)于實(shí)際的工程可太重要了,就比如常見(jiàn)的 Resize 操作,OpenCV、OpenCV-gpu 以及 Torchvision 的實(shí)現(xiàn)方式都不一樣,那從訓(xùn)練到部署,就會(huì)多很多工作量以對(duì)齊結(jié)果。

CV-CUDA 在設(shè)計(jì)之初,就考慮到當(dāng)前圖像處理庫(kù)中,很多工程師習(xí)慣使用 OpenCV 的 CPU 版本,因此在設(shè)計(jì)算子時(shí),不管是函數(shù)參數(shù)還是圖像處理結(jié)果上,盡可能對(duì)齊 OpenCV CPU 版本的算子。因此從 OpenCV 遷移到 CV-CUDA,只需要少量改動(dòng)就能獲得一致的運(yùn)算結(jié)果,模型也就不必要重新訓(xùn)練。

此外,CV-CUDA 是從算子層面設(shè)計(jì)的,因此不論模型的預(yù)/后處理流程是什么樣的,其都能自由組合,具有很高的靈活性。

字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示,在企業(yè)內(nèi)部訓(xùn)練的模型多,需要的預(yù)處理邏輯也多種多樣有許多定制的預(yù)處理邏輯需求。CV-CUDA 的靈活性能保證每個(gè) OP 都支持 stream 對(duì)象和顯存對(duì)象(Buffer 和 Tensor 類(lèi),內(nèi)部存儲(chǔ)了顯存指針)的傳入,從而能更加靈活地配置相應(yīng)的 GPU 資源。每個(gè) op 設(shè)計(jì)開(kāi)發(fā)時(shí),既兼顧了通用性,也能按需提供定制化接口,能夠覆蓋圖片類(lèi)預(yù)處理的各種需求。

CV-CUDA 的易用

可能很多工程師會(huì)想著,CV-CUDA 涉及到底層 CUDA 算子,那用起來(lái)應(yīng)該比較費(fèi)勁?但其實(shí)不然,即使不依賴(lài)更上層的 API,CV-CUDA 本身底層也會(huì)提供 Image 等結(jié)構(gòu)體,提供 Allocator 類(lèi),這樣在 C++ 上調(diào)起來(lái)也不麻煩。此外,往更上層,CV-CUDA 提供了 PyTorch、OpenCV 和 Pillow 的數(shù)據(jù)轉(zhuǎn)化接口,工程師能快速地以之前熟悉的方式進(jìn)行算子替換與調(diào)用。

此外,因?yàn)?CV-CUDA 同時(shí)擁有 C++ 接口與 Python 接口,它能同時(shí)用于訓(xùn)練與服務(wù)部署場(chǎng)景,在訓(xùn)練時(shí)用 Python 接口跟快速地驗(yàn)證模型能力,在部署時(shí)利用 C++ 接口進(jìn)行更高效地預(yù)測(cè)。CV-CUDA 免于繁瑣的預(yù)處理結(jié)果對(duì)齊過(guò)程,提高了整體流程的效率。

ff25296c-852b-11ed-bfe3-dac502259ad0.png

CV-CUDA 進(jìn)行Resize的C++ 接口

實(shí)戰(zhàn),CV-CUDA 怎么用

如果我們?cè)谟?xùn)練過(guò)程中使用 CV-CUDA 的 Python 接口,那其實(shí)使用起來(lái)就會(huì)很簡(jiǎn)單,只需要簡(jiǎn)單幾步就能將原本在 CPU 上的預(yù)處理操作都遷移到 GPU 上。

以圖片分類(lèi)為例,基本上我們?cè)陬A(yù)處理階段需要將圖片解碼為張量,并進(jìn)行裁切以符合模型輸入大小,裁切完后還要將像素值轉(zhuǎn)化為浮點(diǎn)數(shù)據(jù)類(lèi)型并做歸一化,之后傳到深度學(xué)習(xí)模型就能進(jìn)行前向傳播了。下面我們將從一些簡(jiǎn)單的代碼塊,體驗(yàn)一下 CV-CUDA 是如何對(duì)圖片進(jìn)行預(yù)處理,如何與 Pytorch 進(jìn)行交互。

ff349ea6-852b-11ed-bfe3-dac502259ad0.png

常規(guī)圖像識(shí)別的預(yù)處理流程,使用 CV-CUDA 將會(huì)把預(yù)處理過(guò)程與模型計(jì)算都統(tǒng)一放在 GPU 上運(yùn)行。

如下在使用 torchvision 的 API 加載圖片到 GPU 之后,Torch Tensor 類(lèi)型能直接通過(guò) as_tensor 轉(zhuǎn)化為 CV-CUDA 對(duì)象 nvcvInputTensor,這樣就能直接調(diào)用 CV-CUDA 預(yù)處理操作的 API,在 GPU 中完成對(duì)圖像的各種變換。

ff5abb04-852b-11ed-bfe3-dac502259ad0.png

如下幾行代碼將借助 CV-CUDA 在 GPU 中完成圖像識(shí)別的預(yù)處理過(guò)程:裁剪圖像并對(duì)像素進(jìn)行歸一化。其中 resize()將圖像張量轉(zhuǎn)化為模型的輸入張量尺寸;convertto() 將像素值轉(zhuǎn)化為單精度浮點(diǎn)值;normalize() 將歸一化像素值,以令取值范圍更適合模型進(jìn)行訓(xùn)練。

CV-CUDA 各種預(yù)處理操作的使用與 OpenCV 或 Torchvision 中的不會(huì)有太大區(qū)別,只不過(guò)簡(jiǎn)單調(diào)個(gè)方法,其背后就已經(jīng)在 GPU 上完成運(yùn)算了。

ff877234-852b-11ed-bfe3-dac502259ad0.png

現(xiàn)在借助借助 CV-CUDA 的各種 API,圖像分類(lèi)任務(wù)的預(yù)處理已經(jīng)都做完了,其能高效地在 GPU 上完成并行計(jì)算,并很方便地融合到 PyTorch 這類(lèi)主流深度學(xué)習(xí)框架的建模流程中。剩下的,只需要將 CV-CUDA 對(duì)象 nvcvPreprocessedTensor 轉(zhuǎn)化為 Torch Tensor 類(lèi)型就能饋送到模型了,這一步同樣很簡(jiǎn)單,轉(zhuǎn)換只需一行代碼:

ffc07412-852b-11ed-bfe3-dac502259ad0.png

通過(guò)這個(gè)簡(jiǎn)單的例子,很容易發(fā)現(xiàn) CV-CUDA 確實(shí)很容易就嵌入到正常的模型訓(xùn)練邏輯中。如果讀者希望了解更多的使用細(xì)節(jié),還是可以查閱前文 CV-CUDA 的開(kāi)源地址。

CV-CUDA 對(duì)實(shí)際業(yè)務(wù)的提升

CV-CUDA 實(shí)際上已經(jīng)經(jīng)過(guò)了實(shí)際業(yè)務(wù)上的檢驗(yàn)。在視覺(jué)任務(wù),尤其是圖像有比較復(fù)雜的預(yù)處理過(guò)程的任務(wù),利用 GPU 龐大的算力進(jìn)行預(yù)處理,能有效提神模型訓(xùn)練與推理的效率。CV-CUDA 目前在抖音集團(tuán)內(nèi)部的多個(gè)線(xiàn)上線(xiàn)下場(chǎng)景得到了應(yīng)用,比如搜索多模態(tài),圖片分類(lèi)等。

字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示,CV-CUDA 在內(nèi)部的使用能顯著提升訓(xùn)練與推理的性能。例如在訓(xùn)練方面,字節(jié)跳動(dòng)一個(gè)視頻相關(guān)的多模態(tài)任務(wù),其預(yù)處理部分既有多幀視頻的解碼,也有很多的數(shù)據(jù)增強(qiáng),導(dǎo)致這部分邏輯很復(fù)雜。復(fù)雜的預(yù)處理邏輯導(dǎo)致 CPU 多核性能在訓(xùn)練時(shí)仍然跟不上,因此采用 CV-CUDA 將所有 CPU 上的預(yù)處理邏輯遷移到 GPU,整體訓(xùn)練速度上獲得了 90% 的加速。注意這可是整體訓(xùn)練速度上的提升,而不只是預(yù)處理部分的提速。

ffe62bc6-852b-11ed-bfe3-dac502259ad0.png

在字節(jié)跳動(dòng) OCR 與視頻多模態(tài)任務(wù)上,通過(guò)使用 CV-CUDA,整體訓(xùn)練速度能提升 1 到 2 倍(注意:是模型整體訓(xùn)練速度的提升)

在推理過(guò)程也一樣,字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示,在一個(gè)搜索多模態(tài)任務(wù)中使用 CV-CUDA 后,整體的上線(xiàn)吞吐量相比于用 CPU 做預(yù)處理時(shí)有了 2 倍多的提升。值得注意的是,這里的 CPU 基線(xiàn)結(jié)果本來(lái)就經(jīng)過(guò)多核高度優(yōu)化,并且該任務(wù)涉及到的預(yù)處理邏輯較簡(jiǎn)單,但使用 CV-CUDA 之后加速效果依然非常明顯。

速度上足夠高效以打破視覺(jué)任務(wù)中的預(yù)處理瓶頸,再加上使用也簡(jiǎn)單靈活,CV-CUDA 已經(jīng)證明了在實(shí)際應(yīng)用場(chǎng)景中能很大程度地提升模型推理與訓(xùn)練效果,所以要是讀者們的視覺(jué)任務(wù)同樣受限于預(yù)處理效率,那就試試最新開(kāi)源的 CV-CUDA 吧。


原文標(biāo)題:圖像預(yù)處理庫(kù) CV-CUDA 開(kāi)源了,打破預(yù)處理瓶頸,提升推理吞吐量 20 多倍

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4087

    瀏覽量

    99215

原文標(biāo)題:圖像預(yù)處理庫(kù) CV-CUDA 開(kāi)源了,打破預(yù)處理瓶頸,提升推理吞吐量 20 多倍

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用“分區(qū)”來(lái)面對(duì)超大數(shù)據(jù)集和超大吞吐量

    分區(qū)(partitions) 也被稱(chēng)為 分片(sharding),通常采用對(duì)數(shù)據(jù)進(jìn)行分區(qū)的方式來(lái)增加系統(tǒng)的 可伸縮性,以此來(lái)面對(duì)非常大的數(shù)據(jù)集或非常高的吞吐量,避免出現(xiàn)熱點(diǎn)。
    的頭像 發(fā)表于 12-30 16:40 ?213次閱讀
    用“分區(qū)”來(lái)面對(duì)超大數(shù)據(jù)集和超大<b class='flag-5'>吞吐量</b>

    Sandisk閃迪公司發(fā)布全新開(kāi)源工具,突破數(shù)據(jù)存儲(chǔ)測(cè)試瓶頸

    Sandisk閃迪公司日前正式推出一款創(chuàng)新的開(kāi)源工具SPRandom,旨在解決SSD基準(zhǔn)測(cè)試中的重大技術(shù)瓶頸。簡(jiǎn)而言之,預(yù)處理是基于實(shí)際工作負(fù)載對(duì)SSD進(jìn)行測(cè)試的關(guān)鍵步驟,以確保性能表現(xiàn)準(zhǔn)確且可重復(fù)
    的頭像 發(fā)表于 12-22 17:41 ?527次閱讀

    數(shù)據(jù)預(yù)處理軟核加速模塊設(shè)計(jì)

    數(shù)據(jù)拼接操作,其預(yù)處理模塊結(jié)構(gòu)框圖如下圖 模塊最后得到的信號(hào)為ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits圖像數(shù)據(jù),ddr_clk是RAM的出口時(shí)鐘,同時(shí)引出作為下一模塊的數(shù)據(jù)時(shí)鐘,ddr_wrreq置高時(shí)代表有效數(shù)據(jù)。
    發(fā)表于 10-29 08:09

    使用羅德與施瓦茨CMX500的吞吐量應(yīng)用層測(cè)試方案

    5G NR(New Radio)吞吐量應(yīng)用層測(cè)試是評(píng)估5G網(wǎng)絡(luò)性能的一個(gè)重要方面,它主要關(guān)注的是在實(shí)際應(yīng)用條件下,用戶(hù)能夠體驗(yàn)到的數(shù)據(jù)傳輸速率。這種測(cè)試通常包括對(duì)下行鏈路和上行鏈路的吞吐量進(jìn)行測(cè)量,以確保網(wǎng)絡(luò)可以滿(mǎn)足各種應(yīng)用場(chǎng)
    的頭像 發(fā)表于 09-02 13:56 ?7959次閱讀
    使用羅德與施瓦茨CMX500的<b class='flag-5'>吞吐量</b>應(yīng)用層測(cè)試方案

    友思特方案 | FPGA 加持,友思特圖像采集卡高速預(yù)處理助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    圖像預(yù)處理圖像處理關(guān)鍵中間環(huán)節(jié),通過(guò)優(yōu)化傳感器到主機(jī)的數(shù)據(jù)傳輸處理為后續(xù)減負(fù)。其算法依托硬件執(zhí)行,搭載?FPGA?的友思特
    的頭像 發(fā)表于 08-20 09:18 ?1095次閱讀
    友思特方案 | FPGA 加持,友思特<b class='flag-5'>圖像</b>采集卡高速<b class='flag-5'>預(yù)處理</b>助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    NVMe高速傳輸之?dāng)[脫XDMA設(shè)計(jì)22:PCIe的TLP讀優(yōu)化處理

    。并且當(dāng)大量不同的讀請(qǐng)求交叉處理時(shí),讀處理模塊的并行處理結(jié)構(gòu)更能夠充分利用PCIe的亂序傳輸能力來(lái)提高吞吐量。為了清晰的說(shuō)明讀處理模塊對(duì)
    發(fā)表于 08-19 08:48

    基于米爾MYC-YM90X安路飛龍DR1開(kāi)發(fā)板儀表圖像識(shí)別系統(tǒng)開(kāi)發(fā)

    預(yù)處理和特征提取等功能進(jìn)行 FPGA 硬件設(shè)計(jì),生成比特流文件;在 FD 環(huán)境中開(kāi)發(fā) ARM 側(cè)的應(yīng)用程序,實(shí)現(xiàn)系統(tǒng)整體控制與圖像識(shí)別算法的高層執(zhí)行。 2.2.2 驅(qū)動(dòng)與庫(kù)支持 官方提供
    發(fā)表于 08-17 21:29

    FPGA 加持,友思特圖像采集卡高速預(yù)處理助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    圖像預(yù)處理圖像處理關(guān)鍵環(huán)節(jié),可優(yōu)化數(shù)據(jù)傳輸、減輕主機(jī)負(fù)擔(dān),其算法可在FPGA等硬件上執(zhí)行。友思特FPGA圖像采集卡憑借FPGA特性,能縮短
    的頭像 發(fā)表于 08-13 17:41 ?1120次閱讀
    FPGA 加持,友思特<b class='flag-5'>圖像</b>采集卡高速<b class='flag-5'>預(yù)處理</b>助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    鋰電池制造 | 電芯預(yù)處理工藝的步驟詳解

    電芯預(yù)處理是鋰電池包制造的首要工序,無(wú)論是新能源汽車(chē)的續(xù)航穩(wěn)定性,還是儲(chǔ)能系統(tǒng)的循環(huán)壽命,其根基都可追溯至預(yù)處理工序?qū)﹄娦疽恢滦缘陌芽兀浜诵脑谟谕ㄟ^(guò)系統(tǒng)檢測(cè)與篩選消除量產(chǎn)電芯的性能差異,為后續(xù)組裝
    的頭像 發(fā)表于 08-11 14:53 ?1560次閱讀
    鋰電池制造 | 電芯<b class='flag-5'>預(yù)處理</b>工藝的步驟詳解

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    故障)”的自動(dòng)化推理鏈條。3.預(yù)測(cè)性防御:智能基線(xiàn)洞察,防患于未然l 基于先進(jìn)的時(shí)序分解算法,為每個(gè)關(guān)鍵業(yè)務(wù)終端/鏈路動(dòng)態(tài)構(gòu)建多維性能基線(xiàn)(吞吐量、時(shí)延、丟包率)。l 主動(dòng)預(yù)警潛在風(fēng)險(xiǎn),如帶寬瓶頸
    發(fā)表于 07-16 15:29

    【正點(diǎn)原子STM32MP257開(kāi)發(fā)板試用】基于 DeepLab 模型的圖像分割

    前方的合適位置,可在板載 LCD 屏幕獲取識(shí)別效果如下 圖像分割的優(yōu)化 介紹使用 USB 攝像頭實(shí)現(xiàn)動(dòng)態(tài)畫(huà)面的實(shí)時(shí)圖像分割測(cè)試、本地圖片的靜態(tài)板端推理測(cè)試的主要流程。 動(dòng)態(tài)
    發(fā)表于 06-21 21:11

    如何在Visual Studio 2022中運(yùn)行FX3吞吐量基準(zhǔn)測(cè)試工具?

    我正在嘗試運(yùn)行 John Hyde 的書(shū)“SuperSpeed by Design”中的 FX3 吞吐量基準(zhǔn)測(cè)試工具。 但是,我面臨一些困難,希望得到任何指導(dǎo)。 具體來(lái)說(shuō),我正在使用 Visual
    發(fā)表于 05-13 08:05

    FPGA Verilog HDL語(yǔ)法之編譯預(yù)處理

    Verilog HDL語(yǔ)言和C語(yǔ)言一樣也提供編譯預(yù)處理的功能?!熬幾g預(yù)處理”是Verilog HDL編譯系統(tǒng)的一個(gè)組成部分。Verilog HDL語(yǔ)言允許在程序中使用幾種特殊的命令(它們不是一般
    的頭像 發(fā)表于 03-27 13:30 ?1443次閱讀
    FPGA Verilog HDL語(yǔ)法之編譯<b class='flag-5'>預(yù)處理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布開(kāi)源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI
    的頭像 發(fā)表于 03-20 15:03 ?1240次閱讀

    基于嵌入式人工智能的高速圖像處理的微處理器RZ/A2M數(shù)據(jù)手冊(cè)

    RZ/A2M MPU設(shè)計(jì)用于需要高速e-AI圖像處理的智能電器,網(wǎng)絡(luò)攝像機(jī),服務(wù)機(jī)器人,掃描儀產(chǎn)品和工業(yè)機(jī)械。它采用獨(dú)特的圖像識(shí)別和機(jī)器視覺(jué)混合方法,結(jié)合專(zhuān)有的DRP技術(shù),對(duì)
    的頭像 發(fā)表于 03-11 15:54 ?1026次閱讀
    基于嵌入式人工智能的高速<b class='flag-5'>圖像</b><b class='flag-5'>處理</b>的微<b class='flag-5'>處理</b>器RZ/A2M數(shù)據(jù)手冊(cè)