我已经完成两项工作:
1、下载安装VMware
2、完成虚拟机3个几点的安装,我安装的是centOS(按照网上说的一个是master,两个是slave)
现在的问题是:
下面我该做什么,网上教程要么他们千篇+拽文,言辞之间又帅又高大上。要么直接跳过变空挡,并且讲出来的没有共同地方。恶心的我够呛,求大神指导一下,下面我该做什么才能搭建好Hadoop
(0)配置SSH,然后按照以下步骤进行
(1)安装Java JDK、Java JRE
(2)从apache上下载Hadoop源码包
(3)将Hadoop源码包扔到Linux系统home文件夹下
(4)解压hadoop源码包,命令行 tar xzf hadoop-1.1.x.tar.gz
(5)修改hadoop用户配置文件.bashrc,增加java和hadoop的环境变量
(6)更新hadoop的配置文件(core-site.xml mapred-site.xml 以及hdfs-site.xml)
(7)用命令行格式化hadoop分布式文件系统
(8)用命令行启动hadoop单节点集群
(9)整完收工。
之前在阿里云上搭建了一个hadoop 。 作为记录写了一篇博客,不妨看看
http://blog.csdn.net/ch717828/article/details/48440173
Hadoop集群安装
1.配置服务器
1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)
配置主节点名(192.168.15.128)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=master
配置两台子节点名(192.168.15.129)和(192.168.15.130)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver1
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver2
配置hosts
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts
192.168.15.128 master
192.168.15.129 slaver1
192.168.15.130 slaver2
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts root@192.168.15.129:/etc/
scp /etc/hosts root@192.168.15.130:/etc/
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostsname hostsname
例如:master上执行 /bin/hostsname master,使之生效。
2. 配置ssh无密码访问
生成公钥密钥对
在每个节点上分别执行:
ssh-keygen -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
其中前者为私钥,后者为公钥
在主节点上执行:
cp id_rsa.pub authorized_keys
将子节点的公钥拷贝到主节点并添加进authorized_keys
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver1.pub
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver2.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys
最后测试是否配置成功
在master上分别执行
ssh slaver1
ssh slaver2
能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。
这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
scp authorized_keys root@slaver1:/root/.ssh/
scp authorized_keys root@slaver2:/root/.ssh/
在profile文件末尾添加以下代码:
export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
保存后,使刚才编辑的文件生效:
source /etc/profile
测试是否安装成功:java –version
4.安装hadoop
在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop
tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz
在usr下面生成hadoop-2.6.4目录
配置环境变量:
vi /etc/profile
在末尾添加:
export HADOOP_HOME=/usr/ hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
保存后使新编辑的profile生效:
source /etc/profile
5.配置hadoop
配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:
hadoop-env.sh中
export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)
#export JSVC_HOME=${JSVC_HOME}
yarn-env.sh中
export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}
export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"
export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)
core-site.xml中
fs.defaultFS
hdfs://master:9000
io.file.buffer.size
131072
hadoop.tmp.dir
file:/usr/temp
hadoop.proxyuser.root.hosts
hadoop.proxyuser.root.groups
hdfs-site.xml中
dfs.namenode.secondary.http-address
master:9001
dfs.namenode.name.dir
file:/usr/dfs/name
dfs.datanode.data.dir
file:/usr/dfs/data
dfs.replication
2
dfs.webhdfs.enabled
true
dfs.permissions
false
dfs.web.ugi
supergroup
mapred-site.xml中
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
master:10020
mapreduce.jobhistory.webapp.address
master:19888
yarn-site.xml中
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
master:8032
yarn.resourcemanager.scheduler.address
master:8030
yarn.resourcemanager.resource-tracker.address
master:8031
yarn.resourcemanager.admin.address
master:8033
yarn.resourcemanager.webapp.address
master:8088
slaves中
slaver1
slaver2
拷贝hadoop安装文件到子节点
主节点上执行:
scp -r /usr/hadoop-2.6.4 root@slaver1:/usr
scp -r /usr/hadoop-2.6.4 root@slaver2:/usr
拷贝profile到子节点
主节点上执行:
scp /etc/profile root@slaver1:/etc/
scp /etc/profile root@slaver2:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile
格式化主节点的namenode
主节点上进入hadoop目录
然后执行:
./bin/hadoop namenode –format
新版本用下面的语句不用hadoop命令了
./bin/hdfs namenode –format
提示:successfully formatted表示格式化成功
启动hadoop
主节点上在hadoop目录下执行:
./sbin/start-all.sh
主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功