本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU
以及亞馬遜云科技的 EFA 來訓練其
最大的新一代大語言模型(LLM)。

大語言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA GPU 和海量的數(shù)據(jù)集上所訓練而成。
不過這可能會給想要使用生成式 AI 的企業(yè)帶來很多巨大的挑戰(zhàn)。NVIDIA NeMo(一個用于構(gòu)建、自定義和運行 LLM 的框架)能夠幫助企業(yè)克服上述挑戰(zhàn)。
亞馬遜云科技(AWS)有一支由資深科學家和開發(fā)者組成的團隊,致力于為 Amazon Bedrock(一項用于基礎(chǔ)模型的生成式 AI 服務(wù))創(chuàng)建 Amazon Titan 基礎(chǔ)模型。該團隊在過去幾個月中一直在使用 NVIDIA NeMo。
亞馬遜云科技高級應(yīng)用科學家 Leonard Lausen 表示:“我們使用 NeMo 的一大原因是它具有可擴展性,其優(yōu)化功能使我們能夠以較高的 GPU 利用率運行,同時能夠擴展到更大的集群,進而能夠更快地訓練出模型,并向客戶交付。”
實現(xiàn)真正的大規(guī)模訓練
NeMo 的并行技術(shù)可實現(xiàn)高效的大規(guī)模 LLM 訓練。當與亞馬遜云科技的 Elastic Fabric Adapter(EFA)配合使用時,團隊可以將 LLM 擴展到多顆 GPU 上,從而加快訓練速度。
EFA 為亞馬遜云科技客戶提供了一個 UltraCluster 聯(lián)網(wǎng)基礎(chǔ)設(shè)施,可直接連接 1 萬多顆 GPU,并使用 NVIDIA GPUDirect 繞過操作系統(tǒng)和 CPU。
這一結(jié)合使亞馬遜云科技的科學家們能夠提供出色的模型質(zhì)量,這是只依靠其他數(shù)據(jù)并行方法無法大規(guī)模實現(xiàn)的。
通用框架
Lausen 表示:“NeMo 的靈活性支持亞馬遜云科技根據(jù)新的 Titan 模型、數(shù)據(jù)集和基礎(chǔ)設(shè)施的具體情況來定制訓練軟件。
亞馬遜云科技的創(chuàng)新成果包括從 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式傳輸。Lausen 表示:“由于 NeMo 本身就是基于標準化 LLM 訓練管線組件的常用程序庫(如 PyTorch Lightning)所構(gòu)建的,因此整合這些改進很容易?!?/p>
亞馬遜云科技和 NVIDIA 的共同目標是將雙方的合作經(jīng)驗融入到 NVIDIA NeMo 等產(chǎn)品和 Amazon Titan 等服務(wù)中,最終造??蛻?。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。掃描下方海報二維碼,立即注冊 GTC 大會。
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓練支持
文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
23文章
4089瀏覽量
99232
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓練支持
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA推出代理式AI藍圖與電信推理模型
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型
在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗
NVIDIA開源Audio2Face模型及SDK
借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率
Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)
亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型
利用NVIDIA Cosmos模型訓練通用機器人
NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持
NVIDIA GTC巴黎亮點:全新Cosmos Predict-2世界基礎(chǔ)模型與CARLA集成加速智能汽車訓練
恩智浦eIQ Time Series Studio工具使用教程之模型訓練
NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓練支持
評論