在深度学习运行时出现的错误

在运行深度学习时报错

storage = cls._new_shared_filename(manager, handle, size)
RuntimeError: Shared memory manager connection has timed out at /pytorch/torch/lib/libshm/core.cpp:99
想知道这种问题该怎么解决

当内存使用率接近100%时,这个错误很可能会发生,减少点内存使用就可以避免这个错误。

减小batch_size

内存不够了,运行的时候可以看看内存占了多少了。减少batchsize试试,直接减到1迭代一次,再慢慢增加

没有内存啦,加个内存条吧

降低 num_workers 可能会有所帮助。

原因:当内存使用率接近100%时,很可能会出现这个错误,所以只要注意内存使用情况就可以避免这个错误。