关于#hadoop#的问题：Linux显示yarn集群启动成功，Hadoop运行正常，但是yarn的gui却只显示只有resourcemanager所在节点在运行

Linux显示yarn集群启动成功，Hadoop运行正常，但是yarn的gui却只显示只有resourcemanager所在节点在运行，请问为什么会出现这种情况，怎么解决？

这可能是由于在yarn-site.xml中配置的yarn.resourcemanager.address属性不正确所致。该属性应指向YARN资源管理器的主机名和端口号。检查该属性是否正确设置为YARN资源管理器的完全限定域名（FQDN）和端口号。另外，确保所有节点上的yarn-site.xml都有相同的配置。

如果以上步骤不起作用，可以尝试重新启动YARN资源管理器，并在每个节点上检查日志以查找任何错误消息。还可以检查节点之间的网络连接是否正常。

结合GPT给出回答如下请题主参考
这个问题可能与以下几个方面有关：

网络配置问题：请确保所有节点的网络配置正确，能够互相通信。在yarn的gui中只显示resourcemanager所在节点在运行可能是因为其他节点无法连接到该节点，导致其他节点的状态无法在gui中显示。
资源管理器配置问题：请检查资源管理器的配置文件（yarn-site.xml），确保所有节点的配置都正确，包括节点之间的通信地址和端口等。如果配置不正确，可能会导致节点无法正常加入到yarn集群中。
防火墙配置问题：请确保所有节点的防火墙设置正确，允许yarn集群中的节点之间互相通信。如果防火墙设置不正确，可能会导致节点之间无法正常通信，从而导致gui无法正确显示节点状态。
日志信息分析：请仔细查看yarn集群的日志信息，尤其是resourcemanager的日志信息，查找是否有相关的错误或警告信息，从而推断出问题的具体原因。

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：
根据您提供的信息，您的YARN集群在GUI中只显示ResourceManager所在节点在运行，而其他节点未显示。这可能是由于以下一些常见问题导致的：

节点健康状态：确保所有节点都正常运行，并且在YARN集群中注册。您可以通过在集群中的每个节点上运行以下命令来检查其健康状态：
```
yarn node -list
```
如果有节点处于不健康状态或未注册，请检查集群配置和节点设置，确保所有节点正确配置并启动。
防火墙设置：检查您的节点之间是否存在防火墙或网络访问限制。YARN集群中的各个节点需要能够相互通信。确保防火墙规则允许正确的网络流量通过，并且节点之间的网络连接正常。
日志和错误检查：查看YARN集群的日志文件，特别是ResourceManager和其他节点的日志。这些日志文件通常位于Hadoop安装目录的logs文件夹中。检查日志文件以查找任何与节点注册、心跳或通信相关的错误或警告信息。
配置文件：确保所有节点上的YARN配置文件（如yarn-site.xml）正确设置。重要的配置包括yarn.resourcemanager.hostname、yarn.resourcemanager.address和yarn.resourcemanager.scheduler.address等。确保这些配置在所有节点上保持一致。
网络连接：检查节点之间的网络连接是否正常。确保网络设置正确，节点可以相互访问。您可以尝试从一个节点ping另一个节点来测试网络连通性。

如果您仍然无法解决问题，请提供更多详细信息，例如YARN版本、操作系统和配置文件的内容，以便更好地帮助您诊断和解决问题。

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢

【以下回答由 GPT 生成】

问题分析

根据问题描述，Hadoop集群中的yarn的GUI只显示resourcemanager所在的节点在运行，其他节点没有显示状态。我们需要分析这个问题的原因，并给出解决方案。

通常情况下，yarn的GUI可以显示所有节点的运行状态信息，包括resourcemanager所在的节点以及其他节点。因此，这个问题可能是由于以下原因导致的：

配置问题：在yarn的配置文件中可能有错误配置，导致其他节点无法正确注册到resourcemanager。
网络问题：可能存在网络连接问题，导致其他节点无法与resourcemanager建立连接。

我们将按照这些可能原因逐个进行分析和解决。

解决方案

1. 配置问题解决方案

步骤1：检查yarn-site.xml配置文件

首先要检查的是yarn-site.xml配置文件。请确保以下几点：

检查yarn.resourcemanager.address属性的值是否正确配置为resourcemanager所在节点的主机名和端口号。例如：

<property>
    <name>yarn.resourcemanager.address</name>
    <value>resourcemanager.example.com:8088</value>
</property>

检查yarn.resourcemanager.scheduler.address属性的值是否正确配置为resourcemanager所在节点的主机名和端口号。例如：

<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>resourcemanager.example.com:8030</value>
</property>

检查是否配置了yarn.nodemanager.aux-services属性，并且其值为mapreduce.shuffle。例如：

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
</property>

步骤2：检查hdfs-site.xml配置文件

如果问题仍然存在，我们还需要检查hdfs-site.xml配置文件。请确保以下几点：

检查dfs.namenode.rpc-address属性的值是否正确配置为namenode所在节点的主机名和端口号。例如：

<property>
    <name>dfs.namenode.rpc-address</name>
    <value>namenode.example.com:8020</value>
</property>

检查dfs.namenode.http-address属性的值是否正确配置为namenode所在节点的主机名和端口号。例如：

<property>
    <name>dfs.namenode.http-address</name>
    <value>namenode.example.com:50070</value>
</property>

步骤3：重启集群

如果以上配置检查完全正确，我们可以尝试重启整个Hadoop集群来确保配置修改生效。

2. 网络问题解决方案

步骤1：检查网络连接

确保所有节点之间的网络连接是正常的，可以使用ping命令检查节点之间的连通性。

步骤2：检查防火墙配置

如果集群中的节点有防火墙，确保防火墙没有阻止节点之间的通信。
可以尝试临时禁用防火墙以进行测试，如果问题得到解决，说明是防火墙配置导致的问题，可以相应地调整防火墙规则。

步骤3：检查端口开放

确保resourcemanager节点的端口号(如8088、8030等)在集群中的其他节点上是开放的。
可以使用telnet命令测试节点间端口的开放情况。例如，使用以下命令测试resourcemanager节点的8088端口是否开放：

telnet resourcemanager.example.com 8088

如果上述解决方案未能解决问题，请尽量提供详细的错误日志和屏幕截图，以便我们更好地分析和解决您的问题。

谢谢！

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

引用皆我百晓生小程序回复内容作答：
可能出现这种情况的原因是其他节点上的NodeManager没有正确启动或未能注册到ResourceManager。

首先，确认所有节点上的NodeManager都已启动。你可以通过在每个节点上运行以下命令来检查NodeManager的状态：

yarn nodemanager -status

如果NodeManager未正确启动，请检查相应节点上的yarn-site.xml配置文件，确保已正确配置yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs属性。此外，确保所有节点上的hadoop用户具有适当的权限来访问这些目录。

如果NodeManager已正确启动但未能注册到ResourceManager，可能是由于网络问题或配置错误所致。在每个节点上检查yarn-site.xml中的yarn.resourcemanager.address和yarn.resourcemanager.scheduler.address属性，确保它们与ResourceManager节点的地址和端口匹配。

如果问题仍然存在，你可以尝试重启整个yarn集群，以确保所有节点都正确启动和注册。你可以使用以下命令重启yarn集群：

yarn resourcemanager

yarn nodemanager

希望这些提示能够帮助你解决问题。如果问题仍然存在，请提供更多详细信息，以便我们提供更准确的解决方法。

检查ResourceManager的配置文件（yarn-site.xml）以确保它正确指定了NodeManager节点的主机名或IP地址。ResourceManager需要知道在哪些节点上运行NodeManager。

这种情况可能有以下几个原因：

ResourceManager和NodeManager之间的通信问题：如果ResourceManager无法与NodeManager正确通信，它可能无法正确检测到NodeManager的状态。检查NodeManager是否正在运行，以及ResourceManager的日志是否有任何与通信错误相关的消息。
NodeManager的配置问题：NodeManager可能没有正确配置以向ResourceManager报告其状态。检查NodeManager的配置文件（通常是yarn-site.xml），并确保它们正确配置以向ResourceManager报告。
ResourceManager的Web界面问题：ResourceManager的Web界面可能存在问题，无法正确显示集群的状态。尝试直接从ResourceManager的命令行界面（CLI）访问集群，看看是否可以正确显示NodeManager的状态。

解决这个问题可能需要以下步骤：

检查NodeManager的状态，确保它们正在运行，并且ResourceManager可以与它们通信。
检查NodeManager和ResourceManager的配置，确保它们已正确配置以进行通信。这可能包括检查网络设置，端口配置和SSL设置（如果有的话）。
尝试重新启动ResourceManager和NodeManager，看看是否可以解决问题。
如果仍然存在问题，可能需要查看ResourceManager和NodeManager的日志以获取更多信息。

参考gpt4：
结合自己分析给你如下建议：
可能遇到了YARN的节点注册问题。YARN的GUI只显示ResourceManager所在节点在运行，可能是因为其他节点的NodeManager没有正确地向ResourceManager注册，导致ResourceManager无法感知到其他节点的状态和资源。您可以尝试以下方法来解决这个问题：

检查您的YARN配置文件（yarn-site.xml），确保您已经正确地配置了ResourceManager的地址和端口，以及NodeManager的心跳间隔和超时时间。例如，您可以参考以下配置：

<property>
  <name>yarn.resourcemanager.address</name>
  <value>rm-host:8032</value>
</property>

<property>
  <name>yarn.resourcemanager.scheduler.address</name>
  <value>rm-host:8030</value>
</property>

<property>
  <name>yarn.resourcemanager.resource-tracker.address</name>
  <value>rm-host:8031</value>
</property>

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>4096</value>
</property>

<property>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>4</value>
</property>

<property>
  <name>yarn.nodemanager.heartbeat-interval-ms</name>
  <value>1000</value>
</property>

<property>
  <name>yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms</name>
  <value>600000</value>
</property>

检查您的YARN日志文件（yarn.log），查看是否有任何错误或异常信息，例如无法连接ResourceManager，或者被拒绝注册等3。您可以根据日志信息来定位和解决问题。
检查您的网络设置，确保您的节点之间可以正常通信，没有防火墙或者代理等干扰。您可以使用ping或telnet等工具来测试网络连通性。
如果以上方法都无法解决问题，您可以尝试重启YARN集群，或者清除YARN的缓存文件（/tmp/hadoop-yarn）。

Hadoop集群启动yarn不显示ResourceManager、NodeManager得解决方法

一般是jdk版本太高，卸载jdk重装即可。
查看jdk版本，终端输入java -version

环境：Ubuntu18.04、hadoop3.1.4
卸载jdk
1. 删除openjdk包
sudo apt-get purge openjdk
卸载openjdk相关包
sudo apt-get purge icedtea-* openjdk-*
检查是否卸载完毕
dpkg --list | grep -i jdk

2. 还原环境变量
vim ~/.bashrc
删除export JAVA_HOME那一行，并保存退出
source ~/.bashrc

安装jdk
1.安装jdk8
sudo apt-get install openjdk-8-jre openjdk-8-jdk

2.查看路径
dpkg -L openjdk-8-jdk | grep '/bin/javac'
将路径添加到环境
vim ~/.bashrc
在第一行添加export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64，保存退出后输入source ~/.bashrc生效。
再次jps就可以看到ResourceManager、NodeManager。

结合GPT给出回答如下请题主参考
这种情况可能是因为nodemanager未正确启动或者未正确注册到resourcemanager上。

首先，可以通过以下命令检查nodemanager的状态：

$ yarn node -list

如果nodemanager未启动或者未正确注册到resourcemanager，将无法显示nodemanager的信息。

接下来，可以检查nodemanager的日志，查看是否存在任何错误：

$ yarn logs -applicationId <application_id> -containerId <container_id>

其中，<application_id>和<container_id>分别是nodemanager所在节点的应用程序ID和容器ID。

如果nodemanager的日志中存在错误，需要解决这些错误；如果nodemanager正确启动并且无错误，那么可以尝试重启yarn并再次运行yarn node -list命令来检查nodemanager的状态。

该回答引用ChatGPT，希望对题主有所帮助，如有帮助，还望采纳。

此问题可能是由于以下原因导致的：

1.防火墙配置不正确，导致节点之间无法相互通信。

2.节点之间的DNS解析不正确，导致节点之间无法相互识别。

3.在yarn-site.xml文件中，YARN的ResourceManager节点配置可能不正确，需要检查其是否正确设置。

为了解决这个问题，可以尝试以下步骤：

1.确保节点之间网络通畅，检查防火墙设置是否正确。

2.检查/etc/hosts文件中的节点名是否正确解析，或者尝试使用IP地址代替节点名。

3.检查yarn-site.xml文件中的yarn.resourcemanager.address和yarn.resourcemanager.hostname是否正确设置，确保所有节点都有正确的配置。

4.检查yarn-site.xml文件中的yarn.nodemanager.hostname是否与实际节点名称匹配。

5.重启Hadoop和YARN服务，并检查日志文件以获取更多信息。

希望这些步骤能帮助你解决问题。