黃仁勛日前在全球超算領(lǐng)域年度盛會SC18發(fā)表演講,展望高性能及通用計算的未來。除了深度學習突飛猛進,Nvidia的GPU在超算、云平臺等高性能計算領(lǐng)域發(fā)揮著舉足輕重的作用。黃仁勛表示,Nvidia最好的產(chǎn)品還沒有到來,未來計算的重任就交給GPU來抗。
11月11日~16日,2018年全球超算領(lǐng)域年度盛會、全球超級計算大會(SC18)在美國得克薩斯州達拉斯召開。昨天,Nvidia CEO黃仁勛發(fā)表了主旨演講,簡單說,就是未來計算的大旗放心交給英偉達來抗。
老黃在演講中使用了數(shù)據(jù)圖表、產(chǎn)品圖片、甚至是超新星的精美畫面,描述了加速器和人工智能驅(qū)動的計算轉(zhuǎn)換,包括多精度處理器、新興軟件工具、垂直堆棧和容器等,當然還有Nvidia的產(chǎn)品,這些都將推動未來高性能計算的發(fā)展。
其實他在演講中說的大多數(shù)挑戰(zhàn)和解決方案大家都不陌生,不過我們可以理解他表現(xiàn)出的熱情。因為GPU(或者更具體地說,是Nvidia 的GPU和CUDA),一直是HPC用以應(yīng)對摩爾定律崩潰的關(guān)鍵手段。
深度學習熱浪奔涌,Nvidia豪賭GPU終獲回報
最近,基于加速器的異構(gòu)架構(gòu)的不斷興起,這在世界超級計算機Top 500榜單上表現(xiàn)得很明顯。在最新的榜單上,有127臺超級計算機系統(tǒng)中使用了Nvidia的產(chǎn)品,包括目前世界上運算速度最快的兩臺超級計算機Summit和Sierra。
同樣,Nvidia對混合精度功能的支持,對于提升機器學習和深度學習性能至關(guān)重要,這在Nvidia在Volta100和T4 GPU上部署的Tensor Core技術(shù)中可見一斑。
無論是敏銳的遠見也好,聰明的機會主義也罷,Nvidia對GPU的豪賭都取得了豐厚的回報?,F(xiàn)在的GPU對傳統(tǒng)的建模和仿真任務(wù),以及新興的數(shù)據(jù)驅(qū)動的AI任務(wù)的支持越來越廣泛。
關(guān)于HPC和GPU如何協(xié)同工作還有很多事情需要解決,至少近期,基于加速器的異構(gòu)系統(tǒng)可以作為兩者共同的動力。黃仁勛將Nvidia作為先行者,進行了不拘一格的技術(shù)討論,并宣布了一系列內(nèi)容,包括HPC性能基準、產(chǎn)品對市場推動力、新合作伙伴的努力以及對開源的模式贊譽等。
橫掃云平臺和Top500榜單:Nvidia突破性的一年
世界超級計算機Top 500榜單中,Nvidia進步明顯?,F(xiàn)在,榜單中使用Nvidia GPU的系統(tǒng)數(shù)量同比增長了48%,是五年前的三倍。兩臺全球頂級超級計算機Summit(橡樹嶺國家實驗室)和Sierra(勞倫斯利弗莫爾國家實驗室)一共使用了超過40000個Nvidia V100 Tensor Core GPU。Top500榜單中的近一半計算力(702/1417 petaflops)來自加速系統(tǒng)。在10年前,榜單中根本沒有出現(xiàn)加速系統(tǒng)。

截至今年11月的最新超算Top 500榜單(前5名),中美各占兩席
DGX-2為頂級實驗室提供算力。黃仁勛表示,美國第一批Nvidia DGX-2 AI超級計算機已經(jīng)運抵美國領(lǐng)先的一些研究實驗室——布魯克海文國家實驗室、橡樹嶺國家實驗室和桑迪亞國家實驗室。DGX-2利用NVSwitch技術(shù)實現(xiàn)16個Nvidia TeslaV100 Tensor Core GPU的互聯(lián),提供了超過2 petaflop的算力。
在谷歌云上可以使用T4。據(jù)Nvidia發(fā)布的消息,新的T4 GPU推出后僅兩個月,用即在57個獨立的服務(wù)器設(shè)計中得到了應(yīng)用,現(xiàn)在已經(jīng)可以在云中使用,谷歌云平臺首先可用于谷歌云平臺的GPU?!拔覀冇袕奈匆娺^這么快就被數(shù)據(jù)中心采用的處理器,“Nvidia的加速計算副總裁兼總經(jīng)理Ian Buck說。
容器業(yè)務(wù)擴展迅速。Nvidia的NGC容器注冊表現(xiàn)在提供41個框架和應(yīng)用程序(去年為18個),用于深度學習,HPC及其可視化。最近增加的內(nèi)容包括CHROMA,Matlab,MILC,ParaView,RAPIDS和VMD。
Nvidia發(fā)布了新的多節(jié)點HPC和可視化容器,允許超級計算用戶在大規(guī)模集群上運行工作負載。此外,NGC容器現(xiàn)在可以在Singularity本地使用,Singularity是一種在超級計算中廣泛采用的容器技術(shù)。
其他值得一提的亮點。Nvidia GPU也為歐洲和日本最快的超級計算機提供加速服務(wù)。今天發(fā)布的Green 500排行榜測試了世界上最快系統(tǒng)的能效,榜單顯示,前25個“最環(huán)?!钡南到y(tǒng)中,有22個系統(tǒng)使用Nvidia的GPU。
“對于Nvidia來說,這是超級計算領(lǐng)域的突破性的一年?!秉S仁勛在發(fā)布會上表示,事實確實如此。
黃仁勛花了相當多的時間討論Nvidia對其GPU生態(tài)系統(tǒng)的支持,他指出,CUDA版本的向后兼容性以及對一系列開源工具和框架的支持,對于Nvidia開發(fā)標準化垂直堆棧的努力至關(guān)重要。他說,這些堆棧將消滅大部分“苦差事”,并實現(xiàn)更廣泛的各種AI功能。
同樣值得一提的是T4在市場上的出色表現(xiàn)。 使用T4的服務(wù)器公司包括戴爾EMC,IBM,聯(lián)想和超微。T4的功耗僅70瓦,可以靈活地適應(yīng)標準服務(wù)器或任何面向開源計算項目的超大規(guī)模服務(wù)器設(shè)計。
服務(wù)器設(shè)計的適用范圍從單個T4 GPU一直到單個節(jié)點中的20個GPU。 T4的多精度功能可提供四種不同精度級別的工作負載,F(xiàn)P32提供8.1 TFLOPS,F(xiàn)P16提供65TFLOPS,INT8提供130 TFLOPS,INT4提供260 TFLOPS。
在演講的最后,黃仁勛激動地表示,英偉達最好的產(chǎn)品還沒有到來。讓我們拭目以待。
谷歌定向優(yōu)化TensorFlow,尋求GPU性能極限
作為最早在云服務(wù)平臺上應(yīng)用Nvidia T4 GPU的企業(yè),谷歌一直與Nvidia有著良好的合作關(guān)系。近日,谷歌的研究人員在 Medium上發(fā)布了一篇官方博文,題為《用XLA將GPU性能推向極限》(Pushing the limits of GPU performance withXLA)。
XLA 是 TensorFlow 圖模型的編譯器(complier),用于優(yōu)化 TensorFlow 計算。雖然這篇博文中并未提到谷歌最新采用的英偉達T4 虛擬機,但很明顯可以看出,谷歌在針對GPU做TensorFlow模型優(yōu)化,未來也將如此。
使用了XLA的TF1.12在英偉達Tesla V100GPU上訓(xùn)練ResNet-50,速度相比沒有使用 XLA的TF1.11有了顯著提升:合成數(shù)據(jù)為每秒10526幅圖,真實數(shù)據(jù)為每秒10,267幅圖。谷歌研究人員表示,他們觀察到各種內(nèi)部模型的加速最小的有1.13倍,最高的有3.04倍。
-
超級計算機
+關(guān)注
關(guān)注
2文章
483瀏覽量
43457 -
人工智能
+關(guān)注
關(guān)注
1819文章
50218瀏覽量
266504 -
深度學習
+關(guān)注
關(guān)注
73文章
5602瀏覽量
124567
原文標題:黃仁勛:英偉達豪賭GPU終獲回報,但我更看好高性能計算
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Rubin平臺官宣量產(chǎn)!黃仁勛:機器人的ChatGPT時刻已至
黃仁勛中國行的背后,AI芯片暗戰(zhàn)與英偉達生存博弈
NVIDIA CEO黃仁勛在GTC大會上匯聚AI開放模型先鋒
黃仁勛:未來十年很多汽車是自動駕駛 英偉達發(fā)布Alpamayo汽車大模型平臺
黃仁勛新年第一場演講提了DeepSeek 黃仁勛:機器人領(lǐng)域迎來ChatGPT時刻
NVIDIA CEO黃仁勛暢談AI時代最新藍圖
黃仁勛稱中國芯片僅落后美國幾納秒
央視專訪英偉達創(chuàng)始人黃仁勛 黃仁勛:總感覺公司快倒閉了
黃仁勛用中文演講全文分享 中國人工智能模型世界一流 黃仁勛中文演講提了11家中國公司
NVIDIA CEO 黃仁勛在美國和中國推廣 AI
黃仁勛SC18激情演講,高性能計算平臺未來可期
評論