MLPerf 擴展 AI 推理基準測試，Nvidia 在所有測試中名列前茅

在最新一輪的 MLPerf AI 推理基準測試中，Nvidia 憑借其 AI 計算平臺獲得了性能記錄。MLPerf 是業(yè)界獨立的基準測試聯(lián)盟，用于衡量硬件、軟件和服務(wù)的 AI 性能。對于數(shù)據(jù)中心和邊緣計算系統(tǒng)，英偉達在第二輪 MLPerf 評分中是所有六個應(yīng)用領(lǐng)域的性能領(lǐng)先者。

MLPerf 聯(lián)盟發(fā)布了 MLPerf Inference v0.7 的結(jié)果，這是其機器學(xué)習(xí)推理性能基準套件的第二輪提交，該套件中的應(yīng)用程序數(shù)量翻了一番。它還引入了新的 MLPerf Mobile 基準。由 Arm、谷歌、英特爾、聯(lián)發(fā)科、高通和三星電子領(lǐng)導(dǎo)的 MLPerf Mobile 工作組選擇了四個新的神經(jīng)網(wǎng)絡(luò)進行基準測試，并開發(fā)了一款智能手機應(yīng)用程序。

MLPerf 還增加了針對數(shù)據(jù)中心和邊緣系統(tǒng)的額外測試，超越了最初的兩個計算機視覺測試，包括 AI 的四個新領(lǐng)域：推薦系統(tǒng)、自然語言理解 (NLP)、語音識別和醫(yī)學(xué)成像，以及圖像分類（ResNet-50）和對象檢測（低分辨率和高分辨率）。四個新的 AI 推理基準是深度學(xué)習(xí)推薦模型 (DLRM)、變壓器的雙向編碼器表示 (BERT)、循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器 (RNN-T) 和 3D U-Net。

Nvidia Accelerated Computing 產(chǎn)品管理高級總監(jiān) Paresh Kharya 表示，這是第二輪 MLPerf AI 推理測試，出于一些原因，人們熱切期待它。該基準已經(jīng)發(fā)展到包含新的應(yīng)用領(lǐng)域，總體參與人數(shù)從上一輪的 12 名（MLPerf 0.5 推理）增加到本輪的 23 名（MLPerf 0.7 推理），Nvidia Ampere 在這些測試中競爭第一次，他補充說。

“四個新的應(yīng)用領(lǐng)域是推薦系統(tǒng)，其模型由 Facebook 提供，稱為 DLRM，由 Google 提供的非常重要的 NLP 模型，稱為 RNN-T 的語音識別模型，最后是稱為 3D 的新醫(yī)學(xué)成像模型用于在 MRI 掃描中識別腫瘤的 U-Net，”Kharya 說?！案倪M后的基準代表了現(xiàn)代用例，您可以針對不同的環(huán)境和場景運行這些測試?！?/p>

資料來源：英偉達（。）

Kharya 解釋說，Nvidia 提交了數(shù)據(jù)中心和邊緣應(yīng)用程序，并且有四種不同的場景強調(diào)了這些環(huán)境。

“有離線測試，這意味著你的存儲中有數(shù)據(jù)，任務(wù)是運行盡可能多的推理，”他說。“然后你有代表不同用戶訪問數(shù)據(jù)中心服務(wù)器的服務(wù)器場景，代表互聯(lián)網(wǎng)應(yīng)用程序或從云交付的應(yīng)用程序，任務(wù)是對即將到來的負載進行盡可能多的推斷?！?/p>

他補充說，還為數(shù)據(jù)中心和邊緣環(huán)境提交了單流和多流方案。

分數(shù)基于系統(tǒng)。Nvidia 表示，使用 Nvidia A100 GPU的商用系統(tǒng)在所有 AI 推理基準測試得分中排名第一。此外，Nvidia 的 GPU 在提交的內(nèi)容中占主導(dǎo)地位，Nvidia 和 11 個合作伙伴提交了超過 85% 的系統(tǒng)。合作伙伴包括思科、戴爾和富士通。

Nvidia 表示，五年前，只有少數(shù)領(lǐng)先的高科技公司使用 GPU 進行推理，而現(xiàn)在人工智能推理平臺可通過各行各業(yè)的每個主要云和數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商獲得。

分數(shù)Nvidia 及其合作伙伴基于 Nvidia 的加速平臺提交了他們的 MLPerf 0.7 結(jié)果，其中包括 Nvidia 數(shù)據(jù)中心 GPU、邊緣 AI 加速器和優(yōu)化軟件。Nvidia A100 采用第三代 Tensor Cores 和多實例 GPU 技術(shù)，在 ResNet-50 測試中提高了領(lǐng)先優(yōu)勢，在上一輪中以 30 倍擊敗僅 CPU 的系統(tǒng)，而 6 倍。

對于離線和服務(wù)器兩種數(shù)據(jù)中心場景，英偉達在每次測試中都大幅領(lǐng)先于競爭對手。然而，Kharya 指出，沒有提交谷歌 TPU，并且許多在推理性能方面提出很多要求的初創(chuàng)公司也沒有出現(xiàn)在標準化測試中。

資料來源：英偉達（。）

MLPerf Inference 0.7 基準測試還表明，在新添加的數(shù)據(jù)中心推理推薦器測試中，A100 的性能優(yōu)于 CPU 高達 237 倍。Nvidia表示，這意味著單個Nvidia DGX A100 系統(tǒng)可以提供與 1,000 個雙插槽 CPU 服務(wù)器相同的性能，從而在將 AI 推薦模型從研究到生產(chǎn)過程中為客戶提供成本效益。

同樣，在有單流和多流測試的邊緣場景中，Nvidia 提交了其 T4 和 A100 PCIe GPU 以及 Jetson Xavier SoC。基準測試顯示，在相同的測試中， Nvidia T4 Tensor Core GPU比 CPU 高出 28 倍，其Nvidia Jetson AGX Xavier是基于 SoC 的邊緣設(shè)備中的性能領(lǐng)導(dǎo)者。

“Nvidia Jetson Xavier 是一款 30-W SoC 芯片，我們的 GPU 在各自類別的不同測試中都大大優(yōu)于競爭對手，”Kharya 說。（見下表。）

資料來源：英偉達（。）

Kharya 說，從研究到生產(chǎn)，性能突破對于人工智能的采用至關(guān)重要?！叭斯ぶ悄芤呀?jīng)取得了人類編寫的軟件無法取得的成果。人工智能具有很強的可擴展性。更大、更復(fù)雜的模型創(chuàng)造出更強大的人工智能和更準確的人工智能，它可以執(zhí)行許多不同的任務(wù)?！?/p>

資料來源：英偉達（。）

然而，也存在挑戰(zhàn)，他說。“人工智能越準確，訓(xùn)練和推理就越復(fù)雜。在過去五年中，模型的復(fù)雜性增長了 30,000 倍。當這些精確模型部署在實際應(yīng)用中時，您需要極高的推理性能才能使這些應(yīng)用成為可能，因此每天進行的數(shù)百萬次醫(yī)學(xué)掃描可以實時準確診斷疾病，或數(shù)億次從客戶支持到用戶搜索和查找信息，對話式 AI 交互的感覺自然而然。

“而且高度相關(guān)的內(nèi)容和產(chǎn)品推薦現(xiàn)在可以個性化并交付給用戶，”Kharya 補充道。

英偉達在 CPU 方面的領(lǐng)先地位有所提高，在基本計算機視覺模型 (ResNet-50) 上從大約 6 倍增加到 30 倍，而在本輪新增的高級推薦系統(tǒng)模型上，英偉達 A100 的速度提高了 237 倍Kharya 說，比 Cooper Lake CPU。

他聲稱，這意味著單個 DGX A100 在推薦系統(tǒng)上提供與 1,000 個 CPU 服務(wù)器相同的性能?！癕LPerf 的最新結(jié)果確實很好地證明了我們?nèi)绾卫^續(xù)擴大我們的性能領(lǐng)先優(yōu)勢，并最終為我們的客戶提供不斷增加的價值，并使從研究到生產(chǎn)的全新 AI 應(yīng)用范圍成為可能。”

雖然 GPU 架構(gòu)是英偉達 AI 平臺的基礎(chǔ)，但它也需要高度優(yōu)化的軟件堆棧。對于推理，Nvidia 將其分為四個關(guān)鍵步驟：預(yù)訓(xùn)練的 AI 模型（可通過 Nvidia 的NGC中心獲得 GPU 加速軟件）、優(yōu)化模型的遷移學(xué)習(xí)工具包、具有 2,000 多項優(yōu)化的Nvidia TensorRT推理優(yōu)化器和Nvidia運行模型和應(yīng)用程序的Triton 推理服務(wù)軟件。