最近需要训练模型,但是发现我的不同的两个python脚本(底层原理不同)在两个不同的linux服务器上均会莫名其妙中断,并且白天一定不会中断,晚上一定会中断。我的日志里面看不到任何的报错。我想知道大家是否遇到过类似问题,又是怎么解决的?
你是否遇到:在用ssh或其他远程连接工具连接服务器
,在终端中运行一些程序
,然后程序执行期间连接断开。执行时间短的还好,如果时间比较长就比较惨了,还要从头再来!
如下,是我执行的训练,训练了十几个小时,训练一般终端连接断开:
在讲后台运行命令,我们先来说一下前台运行的命令!
是不是调用了一些后台服务,后台服务在没有访问的时候会被释放或者休眠了,你可以加上keep-alive机制让所有的服务保持活动