作為計算領域學術界、產(chǎn)業(yè)界、教育界的年度盛會,CNCC2021將匯聚國內外頂級專業(yè)力量、專家資源,為逾萬名參會者呈上一場精彩宏大的專業(yè)盛宴。
今年NVIDIA專家團隊受邀參會,將為大家?guī)韺嵱玫?a href="http://www.makelele.cn/article/bbs/" target="_blank">技術論壇、開發(fā)者技術培訓、編程體驗。歡迎大家蒞臨CNCC大會現(xiàn)場 T10 展位以及線上分論壇了解我們帶來的精彩技術分享!
亮點活動1:技術論壇
深度了解超大規(guī)模模型訓練超算化
【超大規(guī)模模型訓練超算化的趨勢及應用 技術論壇】將于12月以在線論壇的形式召開。NVIDIA攜手百度、阿里云和京東的專家為您帶來超大規(guī)模分布式模型訓練的實踐,以及深入分析GPT-3訓練過程中的存儲、計算及通信開銷及相應優(yōu)化策略等精彩演講。對GPU加速計算、超大規(guī)模語言模型訓練、分布式訓練框架和E級高性能AI計算集群的硬件架構感興趣的小伙伴千萬不要錯過。
超大規(guī)模模型訓練超算化的趨勢及應用 技術論壇
主題報告1:飛槳分布式框架:深度解析超大模型訓練技術
主講嘉賓:
吳志華
百度深度學習技術平臺部主任研發(fā)架構師,
飛槳分布式技術負責人
報告摘要:
飛槳是源于產(chǎn)業(yè)實踐的開源深度學習平臺。本專題主要介紹飛槳分布式訓練框架及其在自然語言處理、視覺、推薦等領域的應用。首先帶大家深入了解飛槳超大規(guī)模深度學習模型訓練技術,含三代參數(shù)服務器架構、多維混合并行訓練技術等,來解決不同維度大模型的訓練;其次通過經(jīng)典案例介紹大模型訓練難點及在實際業(yè)務中的應用。
主題報告2:阿里云在超大規(guī)模分布式模型訓練的實踐
時間:1700主講嘉賓:董建波 阿里云資深技術專家報告摘要:AI算法模型的規(guī)模迅速增長,對算力的需求也急劇增加,分布式集群成為AI計算的必然選擇。而隨著集群規(guī)模的擴展,系統(tǒng)的計算效率不斷下降。為了應對這一挑戰(zhàn),阿里巴巴設計了EFLOPS高性能AI計算集群,通過軟硬件的協(xié)同優(yōu)化,獲得極致的計算效率。本專題將介紹EFLOPS高性能AI計算集群的硬件架構,軟硬件協(xié)同設計,以及在典型業(yè)務場景上的應用。
主題報告3:大規(guī)模分布式深度學習:算法、理論及應用
主講嘉賓:
沈力
京東科技、京東探索研究院算法科學家
報告摘要:
在分布式深度學習的場景下,參數(shù)服務器和節(jié)點之間需要頻繁的傳輸梯度和神經(jīng)網(wǎng)絡權重。當前的超級深度學習模型如GPT-3的參數(shù)量已經(jīng)到千億規(guī)模,這給現(xiàn)有的分布式深度學習算法帶來了全新的挑戰(zhàn)。本次報告中,京東探索研究院立足于優(yōu)化算法理論,從四個層面來探索解決大規(guī)模分布式深度學習中模型參數(shù)維度過高和數(shù)據(jù)規(guī)模過大帶來的通信壓力和算力壓力的問題。
主題報告4:超大規(guī)模模型訓練的趨勢及方案介紹
主講嘉賓:
楊廣樓
NVIDIA工程解決方案技術專家
報告摘要:
針對超大規(guī)模模型訓練發(fā)展,介紹NVIDIA DGX SuperPOD如何設計計算、網(wǎng)絡和存儲等,提供給客戶最優(yōu)化、可擴展和性能可保障的一站式分布式GPU集群解決方案。
主題報告5: 深入分析GPT-3模型訓練的存儲、計算和網(wǎng)絡資源需求
主講嘉賓:
劉宏斌、劉冰
NVIDIA GPU技術專家
報告摘要:
超大規(guī)模語言模型已經(jīng)在各類NLP任務中取得了SOTA級別的訓練結果,然而大規(guī)模語言模型帶來的存儲及計算開銷使其對軟件及硬件都提出了較高的要求。NVIDIA推出的Megatron-LM框架通過3D-Parallelism將模型合理地分配到相應的計算資源,并且對通信及Kernel進行了優(yōu)化以提升計算效率,在DGX-A100集群上整體GPU利用率可達50%以上,訓練GPT-3只需34天(1024GPUs)。演講將以Megatron-LM為例,深入分析GPT-3訓練過程中的存儲、計算及通信開銷及Megatron-LM的相應優(yōu)化策略。
主題報告6: 超大模型部署實踐
主講嘉賓:
薛博陽
NVIDIA GPU技術專家
報告摘要:
最近幾年,NLP模型的參數(shù)量以每年10倍的成長速度不斷增加,并且至今為止還沒有減緩的跡象。為了能將這些上千億參數(shù)的模型部署上線,透過多GPU來載入模型并且提升速度是必要的。雖然目前許多的主流框架,如 TensorFlow、PyTorch,都有提供多GPU的訓練庫。但在推理上,這些筐架無論是在顯存使用上還是速度上都明顯不足。而在推理方面,雖然也已經(jīng)有許多很好的工作,例如TensorRT、Light-seq,但他們都只能支持單GPU的推理。而FasterTransformer正是第一個針對多GPU場景進行優(yōu)化的推理庫。
亮點活動2:CUDA編程入門分享
【Arm / GPU 架構 CUDA 編程入門分享及線上編程體驗技術分享】將于 2021年12月16日1700 在線上召開。NVIDIA專家將與您一起探討基于Arm的嵌入式平臺Jetson 開發(fā)環(huán)境、GPU異構計算原理、CUDA編程模型等理論內容。此外,還將提供云端環(huán)境以進行線上開發(fā)實驗,快帶上你的電腦參與我們的開發(fā)實驗吧!
Arm / GPU 架構 CUDA 編程入門分享及線上編程體驗
12月16日
時間主題主講嘉賓
1700CUDA開發(fā)原理介紹何琨NVIDIA企業(yè)開發(fā)者社區(qū)經(jīng)理
1850線上編程實驗何琨NVIDIA企業(yè)開發(fā)者社區(qū)經(jīng)理
1800答疑何琨NVIDIA企業(yè)開發(fā)者社區(qū)經(jīng)理
亮點活動3:展位現(xiàn)場開發(fā)者技術培訓
【展位現(xiàn)場開發(fā)者技術培訓】 將于12月16-17日在英偉達-麗臺 T10 號展位舉行舉行,12月16日14:00麗臺科技專家為您帶來全方位實用的技術培訓。在12月17日上午的NVIDIA 初創(chuàng)加速加速日之中,我們邀請到眾多NVIDIA初創(chuàng)加速計劃成員的創(chuàng)始人和研發(fā)負責人為您介紹諸如基于NVIDIA GPU 的模塊化機器人平臺、TensorRT 推理加速應用等各領域開發(fā)實戰(zhàn)培訓內容。
展位現(xiàn)場開發(fā)者技術培訓
時間主題主講嘉賓
1430現(xiàn)代AI數(shù)據(jù)中心構建解決方案蔡欣欣麗臺GPU產(chǎn)品經(jīng)理及售前顧問
1400AI及HPC產(chǎn)品解決方案蔡欣欣麗臺GPU產(chǎn)品經(jīng)理及售前顧問
1530麗臺EGX邊緣計算解決方案蔡欣欣麗臺GPU產(chǎn)品經(jīng)理及售前顧問
時間主題主講嘉賓
1015英偉達初創(chuàng)加速計劃介紹朱敏NVIDIA初創(chuàng)加速計劃經(jīng)理
1030AUTO CUBE ROBOT - 利用模塊化機器人平臺實現(xiàn)學生人工智能體系掌握張明YUHESEN研發(fā)負責人
1045TensorRT推理加速在實際場景中的應用成望極視角科技研發(fā)SVP
1000新型存儲架構YRCloudFile 在 AI 訓練中的性能優(yōu)化與實踐王鵬飛
焱融科技CTO
1115GPU 并行計算- 利用 AI模型加速空間數(shù)據(jù)生產(chǎn) 梁健大地量子AI遙感算法工程師
1130ROS 編程基礎- 利用Jetson AGX XAVIER 實現(xiàn)移動機器人自主充電 楊劉一喲羅機器人執(zhí)行董事&技術總監(jiān)經(jīng)理
原文標題:CNCC2021 | NVIDIA專家?guī)碜顚嵱玫母韶浄窒?武裝開發(fā)者的頭腦
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
NVIDIA
+關注
關注
14文章
5600瀏覽量
109825 -
服務器
+關注
關注
14文章
10270瀏覽量
91543 -
AI
+關注
關注
91文章
39945瀏覽量
301592
原文標題:CNCC2021 | NVIDIA專家?guī)碜顚嵱玫母韶浄窒?武裝開發(fā)者的頭腦
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
中科曙光scaleX萬卡超集群筑牢超大規(guī)模智算硬核底座
中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎設施
燧原科技榮獲2025年超大規(guī)模智算集群創(chuàng)新應用實踐成果
NVIDIA 推出 Nemotron 3 系列開放模型
芯華章 HuaEmu E1 四大技術打通超大規(guī)模驗證核心瓶頸
利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)
借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率
NVIDIA和英特爾合作推動產(chǎn)品組合創(chuàng)新
大規(guī)模專家并行模型在TensorRT-LLM的設計
偉創(chuàng)力高效電源模塊在超大規(guī)模數(shù)據(jù)中心的應用
超大規(guī)模芯片驗證:基于AMD VP1902的S8-100原型驗證系統(tǒng)實測性能翻倍
CMOS超大規(guī)模集成電路制造工藝流程的基礎知識
NVIDIA超大規(guī)模模型訓練的趨勢及方案介紹
評論