关于大数据中,hadoop环境搭建问题。恶心两天了,求大神指导

我已经完成两项工作:
1、下载安装VMware
2、完成虚拟机3个几点的安装,我安装的是centOS(按照网上说的一个是master,两个是slave)
现在的问题是:
下面我该做什么,网上教程要么他们千篇+拽文,言辞之间又帅又高大上。要么直接跳过变空挡,并且讲出来的没有共同地方。恶心的我够呛,求大神指导一下,下面我该做什么才能搭建好Hadoop

(0)配置SSH,然后按照以下步骤进行
(1)安装Java JDK、Java JRE
(2)从apache上下载Hadoop源码包
(3)将Hadoop源码包扔到Linux系统home文件夹下
(4)解压hadoop源码包,命令行 tar xzf hadoop-1.1.x.tar.gz
(5)修改hadoop用户配置文件.bashrc,增加java和hadoop的环境变量
(6)更新hadoop的配置文件(core-site.xml mapred-site.xml 以及hdfs-site.xml)
(7)用命令行格式化hadoop分布式文件系统
(8)用命令行启动hadoop单节点集群
(9)整完收工。

之前在阿里云上搭建了一个hadoop 。 作为记录写了一篇博客,不妨看看

http://blog.csdn.net/ch717828/article/details/48440173

Hadoop集群安装
1.配置服务器
1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)
配置主节点名(192.168.15.128)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=master
配置两台子节点名(192.168.15.129)和(192.168.15.130)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver1

vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver2

配置hosts
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts

192.168.15.128 master
192.168.15.129 slaver1
192.168.15.130 slaver2
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts root@192.168.15.129:/etc/
scp /etc/hosts root@192.168.15.130:/etc/
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostsname hostsname
例如:master上执行 /bin/hostsname master,使之生效。
2. 配置ssh无密码访问
生成公钥密钥对
在每个节点上分别执行:
ssh-keygen -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
其中前者为私钥,后者为公钥
在主节点上执行:
cp id_rsa.pub authorized_keys
将子节点的公钥拷贝到主节点并添加进authorized_keys
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver1.pub
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver2.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys

最后测试是否配置成功
在master上分别执行
ssh slaver1
ssh slaver2
能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。

这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
scp authorized_keys root@slaver1:/root/.ssh/
scp authorized_keys root@slaver2:/root/.ssh/

  1. 安装jdk 卸载jdk 查看系统已经装的jdk: rpm -qa|grep jdk 卸载jdk: rpm -e --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64 安装JDK(三台机器都要安装) 安装在同一位置/opt/java/jdk1.7.0_72 下载JDK 解压JDK : tar -zxvf /opt/java/jdk-7u72-linux-x64.gz 配置环境变量, 编辑profile文件: vi /etc/profile

在profile文件末尾添加以下代码:
export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
保存后,使刚才编辑的文件生效:
source /etc/profile
测试是否安装成功:java –version
4.安装hadoop
在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop
tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz

在usr下面生成hadoop-2.6.4目录
配置环境变量:
vi /etc/profile
在末尾添加:
export HADOOP_HOME=/usr/ hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
保存后使新编辑的profile生效:
source /etc/profile
5.配置hadoop
配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:
hadoop-env.sh中

The java implementation to use.

export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)

The jsvc implementation to use. Jsvc is required to run secure datanodes

that bind to privileged ports to provide authentication of data transfer

protocol. Jsvc is not required if SASL is configured for authentication of

data transfer protocol using non-privileged ports.

#export JSVC_HOME=${JSVC_HOME}

yarn-env.sh中

User for YARN daemons

export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}

resolve links - $0 may be a softlink

export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

some Java parameters

export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)

core-site.xml中


fs.defaultFS
hdfs://master:9000


io.file.buffer.size
131072


hadoop.tmp.dir
file:/usr/temp


hadoop.proxyuser.root.hosts



hadoop.proxyuser.root.groups



hdfs-site.xml中


dfs.namenode.secondary.http-address
master:9001


dfs.namenode.name.dir
file:/usr/dfs/name


dfs.datanode.data.dir
file:/usr/dfs/data


dfs.replication
2


dfs.webhdfs.enabled
true


dfs.permissions
false


dfs.web.ugi
supergroup


mapred-site.xml中


mapreduce.framework.name
yarn


mapreduce.jobhistory.address
master:10020


mapreduce.jobhistory.webapp.address
master:19888


yarn-site.xml中


yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler


yarn.resourcemanager.address
master:8032


yarn.resourcemanager.scheduler.address
master:8030


yarn.resourcemanager.resource-tracker.address
master:8031


yarn.resourcemanager.admin.address
master:8033


yarn.resourcemanager.webapp.address
master:8088


slaves中
slaver1
slaver2
拷贝hadoop安装文件到子节点
主节点上执行:
scp -r /usr/hadoop-2.6.4 root@slaver1:/usr
scp -r /usr/hadoop-2.6.4 root@slaver2:/usr
拷贝profile到子节点
主节点上执行:
scp /etc/profile root@slaver1:/etc/
scp /etc/profile root@slaver2:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile

格式化主节点的namenode
主节点上进入hadoop目录
然后执行:
./bin/hadoop namenode –format
新版本用下面的语句不用hadoop命令了
./bin/hdfs namenode –format

提示:successfully formatted表示格式化成功
启动hadoop
主节点上在hadoop目录下执行:
./sbin/start-all.sh

主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功