load average为938.87, 935.32, 927.96问题

系统运行一周后,无法登录,终端只能用已经连接的

早期现象:

1、syslog不再输出到message文件

2、ssh无法登陆,通过捕包,tcp建立连接完成后,服务端没有回包了

3、部分命令运行时会卡主,经过几个小时后可能继续执行,期间状态为不可中断状态(D),通过调试ifconfig命令,调用ioctl(skfd, SIOCGIFCONF, &ifc)卡死

最终现象:

1、任何命令运行不了

2、服务器某些设备的telnet端口还可以连接

3、top最终显示load average为938.87, 935.32, 927.96之后卡死,其余内存,交换分区,cpu均正常

重启后:

没有找到任何地方的错误日志

目前方向就在找/proc 与 /run目录下找资源

关于load average,前期均为稳定2.5-3.5,看不出异常,上面的结果是最终卡死后看到的

 

有大佬遇到过的提点提点,万分感谢

后续:突然在触发,系统某些进程开始出现D状态,load average升高是由于系统越来越多的进程处于D状态导致的。现在在找第一个出现D状态的进程。

另外,后台有服务端每两分钟创建一个文件,touch命令都进入了D无法退出,所以导致load average不断升高