用户
 找回密码
 立即注册
发表于 2021-4-10 14:56:17
98035
本帖最后由 euruqq@163.com 于 2021-4-10 16:34 编辑

情况是这样的,在tlt预训练模型上总是在训练途中报出内存不足然后停止程序
微信图片_20210410063937.jpg
微信图片_20210410064018.jpg
微信图片_20210410064025.jpg
但是内存明显是足够支持使用,同时也在将允许进程内存使用率调到百分百,但是依旧没有解决问题。
已经尝试过百度上的各种解决方案,没有实际解决问题,希望早日得到解答

Error:
1.jpg
微信图片_20210410064012.jpg
使用道具 举报 回复
发表于 2021-4-10 16:22:58
1.尝试将batch_size设置小一点试一下
2.这个好像是个warning,能把下面的error部分贴出来吗?
使用道具 举报 回复 支持 反对
发表于 2021-4-10 16:25:25
在调试的过程中,已经把ssd_train_resnet18_kitti.txt文件中的batch_size_per_gpu参数调至2甚至1,轮数10轮,但是每次都是1轮都没跑完就显示ran out of memory(如上图),我们用nvidia-smi查看gpu显存,显示的是还有还有余量(如上图)。但每次都是一训练一轮都没跑完就报错停下来。请问老师这是什么原因,并如何解决呢
使用道具 举报 回复 支持 反对
发表于 2021-4-10 16:29:42
nvadmin 发表于 2021-4-10 16:22
1.尝试将batch_size设置小一点试一下
2.这个好像是个warning,能把下面的error部分贴出来吗? ...


在调试的过程中,已经把ssd_train_resnet18_kitti.txt文件中的batch_size_per_gpu参数调至2甚至1,轮数10轮,但是每次都是1轮都没跑完就显示ran out of memory(如上图),我们用nvidia-smi查看gpu显存,显示的是还有还有余量(如上图)。但每次都是一训练一轮都没跑完就报错停下来。请问老师这是什么原因,并如何解决呢
使用道具 举报 回复 支持 反对
发表于 2021-4-10 18:43:20
nvadmin 发表于 2021-4-10 16:22
1.尝试将batch_size设置小一点试一下
2.这个好像是个warning,能把下面的error部分贴出来吗? ...

已重新更新了帖子,error图片在帖子里贴出
使用道具 举报 回复 支持 反对
发表于 2021-4-10 20:34:59
你可能是图片尺寸没统一大小
01.png
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册