训练时GPUcmd查看cpu实时使用率率低是怎么回事

深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温。 - 简书
深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温。
图来自网络
新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且模型训练不是几分钟完事,很有可能要长期保持在高温状态下运行,让如此昂贵的GPU一直发烧真是让人太心疼!
首先得到知乎上一位朋友的文章启发,文章点击这里:。这篇文章写的是在ubuntu X server环境下,通过修改nvidia-settings来修改GPU风扇速度,因为默认的nvidia-settings设置是,即使GPU在计算的时候温度已经达到85度,风扇速度最高不会超过70%,这样就无法很好地为GPU进行散热,因此需要手动修改GPU风扇速度。
注,以下设置都是针对linux系统的GPU设置,windows的朋友请搜索相关文章。
一、如果你有显示器(X server)
可以完全按照上面提到的这篇文章来设置:,这里贴出关键步骤为:
修改/etc/X11/xorg.cong文件
sudo nano /etc/X11/xorg.conf
在Section "Device"里面加入 Option "Coolbits" "4"
Section "Device"
Identifier
VendorName
"Coolbits" "4"
EndSection
重启电脑sudo reboot
输入:nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"
这里GPUTargetFanSpeed=100就是风扇的速度, 100就是风扇运行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驱动, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示让用户可以手动调节GPU风扇速度。
感谢原文知乎作者:张三
二、如果你没有显示器
一般在ubuntu上搭建完深度学习环境后,许多朋友习惯把ubuntu的X桌面服务禁用掉,然后通过另一台windows系统的电脑通过ssh来连接GPU机器使用。这个时候X server已经被禁用掉,开机也自动启动命令行模式,上面第一种做法就不适用于这种情况了。原因是,nvidia-settings只能在X桌面环境下运行,若你想强行使用这个设置就会报错:
因此正常情况下,是不可能通过修改这个设置来改变风扇速度的。
但有没有其它方法修改呢?有!你需要骗过系统,让它你有显示器,这就是常说的headless模式。
主要的解决方法是参考了这篇文章:,这篇文章提供了修改风扇速度的脚本,在ubuntu下运行脚本即可实时调节风扇速度,从而为GPU降温。
这里提供详细步骤:
1.克隆这个github仓库到本地目录/opt:
git clone https://github.com/boris-dimitrov/set_gpu_fans_public
在这个仓库包括上图几个文件,主要起作用的是cool_gpu这个文件,我们把文件夹克隆下来之后,运行cool_gpu就可以调节风扇速度了。
2.修改文件夹名字为set-gpu-fans,因为作者疏忽,在cool_gpu代码中此文件夹被命名为“set-gpu-fans”,然而git clone下来的文件夹名字是“set_gpu_fans_public”。
sudo mv set_gpu_fans_public set-gpu-fans
3.创建一个符号链接,让系统知道这个代码在哪里:
ln -sf ~/set-gpu-fans /opt/set-gpu-fans
4.定位到set-gpu-fans文件夹,输入以下命令:
cd /opt/set-gpu-fans
./cool_gpu && controller.log &
tail -f controller.log
这个命令是运行cool_gpu降温代码,启动后会看到这些实时变化的提示:
在开始计算测试前,我们看看目前GPU的温度:
这里用的是2卡进行计算测试,我们可以看到,2卡的Perf(性能)一项已经被调整为“P2”(其它卡仍为P8),2卡的温度为35度,而且三个风扇的速度均为55%。“P2”指的是nvidia的显卡power state,从P0到P12,最高性能状态为P0,运行计算是为P2,最低功耗(最低性能)为P12。
启动模型训练,我们可以看到程序正在不断地自动调节温度:
当运行训练模型一段时间后,最终的温度状态如下图:
风扇被全部调节到80%的速度,温度稳定在65度!对比文章开头的数据,显卡温度从84度降到65度,整整下降了20度!
三、一点要注意的
在上面第二部分的文章出来之前,网上还流传着另一篇文章,那篇可以说是最原始的版本,上面第二部分的代码正是基于该篇原始版本文章改进的,链接地址在这里:.
但这篇文章的原始代码存在一个严重问题:虽然能够强制改变风扇速度,但GPU会被降频工作,power state会被强制降为P8,导致运算性能严重下降!
可能是那篇文章发表时间比较早,不大适用现在最新的显卡和驱动,因此才有了上面第二部分的改进版本,所以大家不要使用原始版本的代码,否则GPU会被限制性能。
计算机视觉方向深度学习工程师
微信公众号:Aihows
本系列文章面向深度学习研发者,希望通过Image Caption Generation,一个有意思的具体任务,深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型,如CNN,RNN/LSTM,Attention等。本文为第8篇。 作者:李理 目前就职于环信,...
用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金Cover 有什么料? 从这篇文章中你能获得这些料: 知道setContentView()之后发生了什么? ... Android 获取 View 宽高的常用正确方式,避免为零 - 掘金相信有很多朋友...
用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你能获得这些料: 知道setContentView()之后发生了什么? ... Android 获取 View 宽高的常用正确方式,避免为零 - 掘金 相信有很多...
转发自炼数成金 从硬件配置到软件安装,一台深度学习机器的配备指南 12:23| 发布者: 炼数成金_小数| 查看: 33286| 评论: 1|原作者: Roelof Pieters|来自: 机器之心 摘要: 一旦我决定了搭建我自己的 GPU 系统时,我首先...
ubuntu16.04+anaconda2+cuda8.0+cudnn5.1+tensorflow(gpu)的下载请百度,务必通过官网下载 没有GPU的的同学请忽略3/4/5/7这几个步骤,直接安装tensorflow(cpu)版本 1.制作ubuntu启动盘, u盘安装u...
最近项目中遇到音频播放的的问题,之前没遇到过,临时找了一波资料,然而,网上的资料大多不全,自己摸索了一段时间,功能比较简单,其中还是遇到不少坑,小记一番。 涉及需求: 播放网络音频 快退、快进、暂停、播放,切换音频等基本功能 进度监听,拖动进度条定位音频播放 界面隐藏时暂停...
一只蝴蝶扇动一下翅膀,就会在很远的地方挂起飓风。所以没有必要后悔,因为没有那些过往,我不会在现在或是将来遇见你、你们。 当我站在时间长河的边上,微微合上眼,会闻到一股稻花的香味,我会双手合十,轻轻呼吸,深深地鞠上一躬,感谢你们,感谢所有,感谢时光将我带到了这里。 喜欢回顾过...
答案是 1 个标签即可! //css部份 //主体部份.icon-wexin{display:inline-width:64height:64position:background:radial-gradient(circle at...
北京时间日中午,香港艺人冯德伦在ins上突然公开与舒淇的婚讯,声称:“我毫无反顾地娶她了,我们决定互相纠缠一辈子。”校园司令还记得前不久舒淇闺蜜林心如大婚时,舒淇微博便被一众网友攻陷,粉丝们纷纷操心起女神的婚事,@冯德伦的亦不在少数。如今喜讯传来,女神嫁男神...
做一枚有礼貌的吃货是一种美德。决胜网_中国第一家教育产业门户
努力加载中...
Copyright (C) 2017 决胜网 juesheng.com All Rights Reserved.京ICP备号-1没有更多推荐了,
不良信息举报
举报内容:
TensorFlow训练模型,指定GPU训练,设置显存,查看gpu占用
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!为什么在部分机器学习中训练模型时使用GPU的效果比CPU更好? - 知乎227被浏览<strong class="NumberBoard-itemValue" title="2分享邀请回答12512 条评论分享收藏感谢收起502 条评论分享收藏感谢收起没有更多推荐了,
不良信息举报
举报内容:
caffe训练时总是会占用0号GPU卡
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!

我要回帖

更多关于 查询临时表空间使用率 的文章

 

随机推荐