有五台hadoop机器,1、2、3、4、5,其中1、2、3是namenode高可用,4、5是resourcemanager高可用,1上面有hive,由于环境搭建初期,对于1这台机器,内存不够,查看系统日志,发现其上的nn服务,jn服务等经常被系统oom,后发现,再次启动nn、jn、zkfc等服务后,1上面的nn、jn、zkfc、dn均无新日志更新,且其他节点也通讯不到1节点的jn,但是运行任务时发现此节点仍参加计算,且该节点的nn可设置为active,成为active后仍无日志更新。
此为application的截图
此为namenode日志的截图
加油,大佬们
信息有点不全,判断不了什么问题。几点建议可以参考下
1. 最好别格式化namenode,还得找找问题。不能一有问题就重装集群的,测试环境还行,线上肯定不允许这样了
2. 怎么发现的没有日志更新了,可以"ll -t"看看日志目录最后是哪个文件更新了,别看错了
3. 检查下磁盘是不是出问题了
4. 集群不可用的时候,有一个问题很容易被忽略,就是网络是不是有调整了。防火墙是不是有调整?运维是不是调整了网络
5. 还有也可以回顾下最近是不是改什么配置问题了
stop-all.cmd
hadoop namenode –format
start-all.cmd
马赛克是什么意思?
检查一下配置文件
有时候这种情况会发生。首先,停止所有服务,然后转到您的current
目录并删除current
目录。Hadoopcurrent
目录也存储所有日志文件。通过删除current
目录,再次启动所有服务。
停止所有服务:
$HADOOP_HOME/sbin/stop-all.sh
停止所有服务后,应通过以下命令设置Namenode的格式。
格式名称节点:
$HADOOP_HOME/bin/hadoop namenode –format
现在再次通过以下命令启动所有服务。
启动所有服务:
$HADOOP_HOME/sbin/start-all.sh
解决方案2:
有时Namenode进入了safe-mode
。您需要通过以下命令离开安全节点。
$HADOOP_HOME/bin/hdfs dfsadmin -safemode leave