根据开源的chatGLM6b训练模型的时候,老是到了百分之4-5左右就显示被killed,然后什么错误也没有显示。然后看显存和docker容器内存,感觉都是够的,不清楚为什么会这样,错误也不知道从哪里查起
你有资源没释放,线程数量太多或者端口占用太多,不能只看内存
是本地训练还是服务器训练?是不是服务器监控程序认为你的负载过高,而把你的程序掐了
前两天我遇到过类似的问题,内存占用太高导致程序被干掉,也可以看下系统中有没有线程数的一个限制