1. 设备准备
准备3台Linux Server,本人比较喜欢Ubuntu Server 10.04,1台作namenode,2台作datanode。
配置IP地址,例如:
192.168.28.1 namenode
192.168.28.10 datanode1
192.168.28.11 datanode2

2. 环境准备
3台设备建立相同的用户和密码,然后配置Java JDK。在1台设备上配置,然后用scp 命令复制到其余设备中。

3. SSH配置
3.1 在3台设备上分别执行ssh-keygen。
3.2 在1台设备上执行cat .ssh/id_rsa.pub>>authorized_keys,然后用scp命令复制authorized_keys文件到第二台设备。
3.3 第二台设备接收到authorized_keys文件后,再执行cat .ssh/id_rsa.pub>>authorized_keys,然后用scp命令复制authorized_keys文件到第三台设备。依次操作下去,最后再返回到第一台设备。
3.4 最后,所有设备上的authorized_keys文件都是一样的。切忌,一定要放在.ssh目录下,否则无法实现每台设备都不需要密码ssh登陆。
3.5 验证方法:ssh IP地址,如果提示需要密码,请检查设备上authorized_keys文件是否与其他设备一致。

如果以上操作都准备好,现在就可以安装并配置hadoop了。

4. Hadoop配置
4.1 下载hadoop,本人下的是hadoop-1.1.2.tar.gz
4.2 修改配置文件,在hadoop下的conf里。
4.2.1 hadoop-env.sh,将java_home的路径配置好,记得要开启哦!
4.2.2 core-site.xml增加内容。

<configuration>
 <property>
  <name>fs.default.name< /name>
  <value>hdfs://192.168.28.1:28000< /value>
 </property>
 <property>
  <name>hadoop.tmp.dir< /name>
  <value>hadoop路径/tmp< /value>
 </property>
</configuration>

4.2.3 hdfs-site.xml增加内容。

<configuration>
 <property>
  <name>dfs.replication< /name>
  <value>2< /value>
 </property>
</configuration>

4.2.4 mapred-site.xml增加内容。

<configuration>
 <property>
  <name>mapred.job.tracker< /name>
  <value>localhost:28001< /value>
 </property>
</configuration>

4.2.5 masters文件,增加IP地址192.168.28.1。
4.2.6 slaves文件,增加IP地址192.168.28.10 192.168.28.11,每行一个。
4.2.7 用scp -r命令复制整个hadoop到其他设备中。

至此,hadoop配置全部完成,现在可以运行了。

在namenode设备的hadoop路径执行,bin/hadoop namenode -format,初始化dfs。
再执行,bin/start-all.sh,启动namenode datanode Jobstracker Taskstracker。

打开浏览器,输入 192.168.28.1:50070 和 192.168.28.1:50030,查看dfs和mapreduce状态。
如果有问题,可以在登陆问题设备,执行jps,查看状态,然后检查hadoop配置文件和ssh配置文件。

到此,hadoop集群已搭建完毕,可以去乐和了。

发表评论