深入探討常見的GPU系統(tǒng)架構

本文將進一步深入探討常見的GPU系統(tǒng)架構。

8臺配備NVIDIA A100 GPU的節(jié)點/8臺配備NVIDIA A800 GPU的節(jié)點

如上圖所示的A100 GPU拓撲結構中，8塊A100 GPU所組成的拓撲包含以下組件：

兩顆CPU芯片（及其兩側相關的內存，NUMA架構）：中央處理器負責執(zhí)行通用計算任務。

兩塊存儲網絡適配卡（用于訪問分布式存儲，具備帶內管理等功能）：這些網卡用于訪問分布式存儲資源。

四顆PCIe Gen4交換芯片：PCIe Gen4是PCIe接口的第四代，提供了更高的數據傳輸速率。

六顆NVSwitch芯片：NVSwitch使得GPU與GPU之間能夠以極高的速度直接通信，這對于大規(guī)模深度學習節(jié)點和并行計算任務的有效運行至關重要。

八塊GPU：A100 GPU作為主要處理單元，負責執(zhí)行并行計算，尤其適合人工智能和深度學習工作負載。

八塊GPU專用網絡適配卡：每塊GPU配備一塊專用的網絡適配卡，旨在優(yōu)化GPU之間的通信，并提升并行處理任務的整體性能。

接下來的部分我們將對這些組件進行詳細解讀。下一張圖片將提供更詳盡的拓撲結構信息供參考。

存儲網絡卡

在GPU架構中，存儲網絡卡的定位主要涉及其通過PCIe總線與中央處理器（CPU）的連接，以及負責促進與分布式存儲系統(tǒng)的通信。以下是存儲網絡卡在GPU架構中的主要作用：

讀寫分布式存儲數據：存儲網絡卡的主要功能之一是高效地從分布式存儲系統(tǒng)讀取和寫入數據。這對于深度學習模型訓練過程至關重要，在此過程中頻繁訪問分布在各處的訓練數據以及將訓練結果寫入檢查點文件極為重要。

節(jié)點管理任務：存儲網絡卡的功能不僅限于數據傳輸，還包括節(jié)點管理任務。這包括但不限于通過SSH（安全外殼協(xié)議）進行遠程登錄、監(jiān)控系統(tǒng)性能以及收集相關數據等任務。這些任務有助于對GPU集群的運行狀態(tài)進行監(jiān)控和維護。

雖然官方推薦使用BF3 DPU，但在實踐中，只要滿足帶寬需求，可以選用其他替代解決方案。例如，為了成本效益考慮，可以考慮使用RoCE；而為了最大限度提升性能，則優(yōu)先選擇InfiniBand。

NVSwitch 網絡結構

在完全互聯(lián)網絡拓撲中，每個節(jié)點都直接與所有其他節(jié)點相連。通常情況下，8塊GPU通過六個NVSwitch芯片以全互聯(lián)配置相連接，這一整體也被稱為NVSwitch架構。

在全互聯(lián)結構中，每條線路的帶寬取決于單個NVLink通道的帶寬，表示為n * bw-per-nvlink-lane。對于采用NVLink3技術、每條通道帶寬為50GB/s的A100 GPU，在全互聯(lián)結構中，每條線路的總帶寬為12 * 50GB/s = 600GB/s。需要注意的是，此帶寬是雙向的，既支持數據發(fā)送也支持接收，因此單向帶寬為300GB/s。

相比之下，A800 GPU將NVLink通道的數量從12減少到了8。因此，在全互聯(lián)結構中，每條線路的總帶寬變?yōu)? * 50GB/s = 400GB/s，單向帶寬為200GB/s。

以下是一個由8*A800組成的設備的nvidia-smi拓撲結構圖示。