hadoop节点服务虽启动但无响应?

有五台hadoop机器,1、2、3、4、5,其中1、2、3是namenode高可用,4、5是resourcemanager高可用,1上面有hive,由于环境搭建初期,对于1这台机器,内存不够,查看系统日志,发现其上的nn服务,jn服务等经常被系统oom,后发现,再次启动nn、jn、zkfc等服务后,1上面的nn、jn、zkfc、dn均无新日志更新,且其他节点也通讯不到1节点的jn,但是运行任务时发现此节点仍参加计算,且该节点的nn可设置为active,成为active后仍无日志更新。

此为application的截图

此为namenode日志的截图

加油,大佬们

信息有点不全,判断不了什么问题。几点建议可以参考下

1. 最好别格式化namenode,还得找找问题。不能一有问题就重装集群的,测试环境还行,线上肯定不允许这样了

2. 怎么发现的没有日志更新了,可以"ll -t"看看日志目录最后是哪个文件更新了,别看错了

3. 检查下磁盘是不是出问题了

4. 集群不可用的时候,有一个问题很容易被忽略,就是网络是不是有调整了。防火墙是不是有调整?运维是不是调整了网络

5. 还有也可以回顾下最近是不是改什么配置问题了

  1. 管理员身份打开cmd 
  2. 输入并运行 stop-all.cmd
  3. hadoop namenode –format
  4. start-all.cmd

马赛克是什么意思?

检查一下配置文件

有时候这种情况会发生。首先,停止所有服务,然后转到您的current目录并删除current目录。Hadoopcurrent目录也存储所有日志文件。通过删除current目录,再次启动所有服务。

停止所有服务:

$HADOOP_HOME/sbin/stop-all.sh

停止所有服务后,应通过以下命令设置Namenode的格式。

格式名称节点:

$HADOOP_HOME/bin/hadoop namenode –format

现在再次通过以下命令启动所有服务。

启动所有服务:

$HADOOP_HOME/sbin/start-all.sh

解决方案2:

有时Namenode进入了safe-mode。您需要通过以下命令离开安全节点。

$HADOOP_HOME/bin/hdfs dfsadmin -safemode leave