問(wèn)題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒(méi)有問(wèn)題,過(guò)一會(huì)再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報(bào)錯(cuò):

解決方案
自動(dòng)風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問(wèn)題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過(guò)熱導(dǎo)致的。
首先開(kāi)啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過(guò)熱的時(shí)候風(fēng)扇就會(huì)自動(dòng)加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動(dòng)風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動(dòng)風(fēng)速控制打開(kāi)。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開(kāi)所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無(wú)權(quán)限寫(xiě)入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:

如果機(jī)器上有多塊gpu,在第一步命令執(zhí)行后,會(huì)在這個(gè)xorg.conf中出現(xiàn)多個(gè)DeviceSection,都依次執(zhí)行第三步操作
重啟機(jī)器后,命令行執(zhí)行nvidia-settings,會(huì)打開(kāi)設(shè)置界面,在其中的會(huì)顯示所有GPU的設(shè)置選項(xiàng),每個(gè)GPU控制選項(xiàng)下面都有一個(gè)Thermal settings,進(jìn)入后打開(kāi)enable GPU Fan Setting即可對(duì)風(fēng)扇進(jìn)行手動(dòng)風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5598瀏覽量
109805 -
gpu
+關(guān)注
關(guān)注
28文章
5196瀏覽量
135519
發(fā)布評(píng)論請(qǐng)先 登錄
借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程
揭秘TEE深度休眠喚醒“低概率報(bào)錯(cuò)”:從概念到解決方案的全解析
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
上位機(jī)報(bào)錯(cuò)2033問(wèn)題處理方案
NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
亞馬遜基于NVIDIA技術(shù)實(shí)現(xiàn)創(chuàng)新型制造解決方案
Ansys使用NVIDIA技術(shù)優(yōu)化CFD仿真解決方案
風(fēng)扇燈PCBA方案開(kāi)發(fā)原理及介紹
Nvidia GPU的風(fēng)扇和電源報(bào)錯(cuò)解決方案
評(píng)論