在最新一輪的 MLPerf AI 推理基準測試中,Nvidia 憑借其 AI 計算平臺獲得了性能記錄。MLPerf 是業(yè)界獨立的基準測試聯(lián)盟,用于衡量硬件、軟件和服務(wù)的 AI 性能。對于數(shù)據(jù)中心和邊緣計算系統(tǒng),英偉達在第二輪 MLPerf 評分中是所有六個應(yīng)用領(lǐng)域的性能領(lǐng)先者。
MLPerf 聯(lián)盟發(fā)布了 MLPerf Inference v0.7 的結(jié)果,這是其機器學(xué)習(xí)推理性能基準套件的第二輪提交,該套件中的應(yīng)用程序數(shù)量翻了一番。它還引入了新的 MLPerf Mobile 基準。由 Arm、谷歌、英特爾、聯(lián)發(fā)科、高通和三星電子領(lǐng)導(dǎo)的 MLPerf Mobile 工作組選擇了四個新的神經(jīng)網(wǎng)絡(luò)進行基準測試,并開發(fā)了一款智能手機應(yīng)用程序。
MLPerf 還增加了針對數(shù)據(jù)中心和邊緣系統(tǒng)的額外測試,超越了最初的兩個計算機視覺測試,包括 AI 的四個新領(lǐng)域:推薦系統(tǒng)、自然語言理解 (NLP)、語音識別和醫(yī)學(xué)成像,以及圖像分類(ResNet-50)和對象檢測(低分辨率和高分辨率)。四個新的 AI 推理基準是深度學(xué)習(xí)推薦模型 (DLRM)、變壓器的雙向編碼器表示 (BERT)、循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器 (RNN-T) 和 3D U-Net。
Nvidia Accelerated Computing 產(chǎn)品管理高級總監(jiān) Paresh Kharya 表示,這是第二輪 MLPerf AI 推理測試,出于一些原因,人們熱切期待它。該基準已經(jīng)發(fā)展到包含新的應(yīng)用領(lǐng)域,總體參與人數(shù)從上一輪的 12 名(MLPerf 0.5 推理)增加到本輪的 23 名(MLPerf 0.7 推理),Nvidia Ampere 在這些測試中競爭第一次,他補充說。
“四個新的應(yīng)用領(lǐng)域是推薦系統(tǒng),其模型由 Facebook 提供,稱為 DLRM,由 Google 提供的非常重要的 NLP 模型,稱為 RNN-T 的語音識別模型,最后是稱為 3D 的新醫(yī)學(xué)成像模型用于在 MRI 掃描中識別腫瘤的 U-Net,”Kharya 說?!案倪M后的基準代表了現(xiàn)代用例,您可以針對不同的環(huán)境和場景運行這些測試?!?/p>

資料來源:英偉達(。)
Kharya 解釋說,Nvidia 提交了數(shù)據(jù)中心和邊緣應(yīng)用程序,并且有四種不同的場景強調(diào)了這些環(huán)境。
“有離線測試,這意味著你的存儲中有數(shù)據(jù),任務(wù)是運行盡可能多的推理,”他說。“然后你有代表不同用戶訪問數(shù)據(jù)中心服務(wù)器的服務(wù)器場景,代表互聯(lián)網(wǎng)應(yīng)用程序或從云交付的應(yīng)用程序,任務(wù)是對即將到來的負載進行盡可能多的推斷?!?/p>
他補充說,還為數(shù)據(jù)中心和邊緣環(huán)境提交了單流和多流方案。
分數(shù)基于系統(tǒng)。Nvidia 表示,使用 Nvidia A100 GPU的商用系統(tǒng)在所有 AI 推理基準測試得分中排名第一。此外,Nvidia 的 GPU 在提交的內(nèi)容中占主導(dǎo)地位,Nvidia 和 11 個合作伙伴提交了超過 85% 的系統(tǒng)。合作伙伴包括思科、戴爾和富士通。
Nvidia 表示,五年前,只有少數(shù)領(lǐng)先的高科技公司使用 GPU 進行推理,而現(xiàn)在人工智能推理平臺可通過各行各業(yè)的每個主要云和數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商獲得。
分數(shù)Nvidia 及其合作伙伴基于 Nvidia 的加速平臺提交了他們的 MLPerf 0.7 結(jié)果,其中包括 Nvidia 數(shù)據(jù)中心 GPU、邊緣 AI 加速器和優(yōu)化軟件。Nvidia A100 采用第三代 Tensor Cores 和多實例 GPU 技術(shù),在 ResNet-50 測試中提高了領(lǐng)先優(yōu)勢,在上一輪中以 30 倍擊敗僅 CPU 的系統(tǒng),而 6 倍。
對于離線和服務(wù)器兩種數(shù)據(jù)中心場景,英偉達在每次測試中都大幅領(lǐng)先于競爭對手。然而,Kharya 指出,沒有提交谷歌 TPU,并且許多在推理性能方面提出很多要求的初創(chuàng)公司也沒有出現(xiàn)在標準化測試中。

資料來源:英偉達(。)
MLPerf Inference 0.7 基準測試還表明,在新添加的數(shù)據(jù)中心推理推薦器測試中,A100 的性能優(yōu)于 CPU 高達 237 倍。Nvidia表示,這意味著單個Nvidia DGX A100 系統(tǒng)可以提供與 1,000 個雙插槽 CPU 服務(wù)器相同的性能,從而在將 AI 推薦模型從研究到生產(chǎn)過程中為客戶提供成本效益。
同樣,在有單流和多流測試的邊緣場景中,Nvidia 提交了其 T4 和 A100 PCIe GPU 以及 Jetson Xavier SoC。基準測試顯示,在相同的測試中, Nvidia T4 Tensor Core GPU比 CPU 高出 28 倍,其Nvidia Jetson AGX Xavier是基于 SoC 的邊緣設(shè)備中的性能領(lǐng)導(dǎo)者。
“Nvidia Jetson Xavier 是一款 30-W SoC 芯片,我們的 GPU 在各自類別的不同測試中都大大優(yōu)于競爭對手,”Kharya 說。(見下表。)

資料來源:英偉達(。)
Kharya 說,從研究到生產(chǎn),性能突破對于人工智能的采用至關(guān)重要?!叭斯ぶ悄芤呀?jīng)取得了人類編寫的軟件無法取得的成果。人工智能具有很強的可擴展性。更大、更復(fù)雜的模型創(chuàng)造出更強大的人工智能和更準確的人工智能,它可以執(zhí)行許多不同的任務(wù)?!?/p>

資料來源:英偉達(。)
然而,也存在挑戰(zhàn),他說。“人工智能越準確,訓(xùn)練和推理就越復(fù)雜。在過去五年中,模型的復(fù)雜性增長了 30,000 倍。當這些精確模型部署在實際應(yīng)用中時,您需要極高的推理性能才能使這些應(yīng)用成為可能,因此每天進行的數(shù)百萬次醫(yī)學(xué)掃描可以實時準確診斷疾病,或數(shù)億次從客戶支持到用戶搜索和查找信息,對話式 AI 交互的感覺自然而然。
“而且高度相關(guān)的內(nèi)容和產(chǎn)品推薦現(xiàn)在可以個性化并交付給用戶,”Kharya 補充道。
英偉達在 CPU 方面的領(lǐng)先地位有所提高,在基本計算機視覺模型 (ResNet-50) 上從大約 6 倍增加到 30 倍,而在本輪新增的高級推薦系統(tǒng)模型上,英偉達 A100 的速度提高了 237 倍Kharya 說,比 Cooper Lake CPU。
他聲稱,這意味著單個 DGX A100 在推薦系統(tǒng)上提供與 1,000 個 CPU 服務(wù)器相同的性能?!癕LPerf 的最新結(jié)果確實很好地證明了我們?nèi)绾卫^續(xù)擴大我們的性能領(lǐng)先優(yōu)勢,并最終為我們的客戶提供不斷增加的價值,并使從研究到生產(chǎn)的全新 AI 應(yīng)用范圍成為可能。”
雖然 GPU 架構(gòu)是英偉達 AI 平臺的基礎(chǔ),但它也需要高度優(yōu)化的軟件堆棧。對于推理,Nvidia 將其分為四個關(guān)鍵步驟:預(yù)訓(xùn)練的 AI 模型(可通過 Nvidia 的NGC中心獲得 GPU 加速軟件)、優(yōu)化模型的遷移學(xué)習(xí)工具包、具有 2,000 多項優(yōu)化的Nvidia TensorRT推理優(yōu)化器和Nvidia運行模型和應(yīng)用程序的Triton 推理服務(wù)軟件。

資料來源:英偉達(。)
該公司還為關(guān)鍵應(yīng)用領(lǐng)域提供端到端的應(yīng)用框架。它們包括 CLARA(醫(yī)療保健)、DRIVE(自動駕駛汽車)、JARVIS(對話式人工智能)、ISAAC(機器人)、MERLIN(推薦系統(tǒng))和 METROPOLIS(智能城市)。
Nvidia 還聲稱,其 GPU 在公共云中提供的 AI 推理能力比 CPU 更多。據(jù)該公司稱,英偉達 GPU 上的總云 AI 推理計算能力每兩年增長大約 10 倍。應(yīng)用范圍從自主無人機和送貨機器人到倉庫和光學(xué)檢測。
審核編輯 黃昊宇”
電子發(fā)燒友App











































評論