你好,游客 登录 注册 搜索
背景:
阅读新闻

Ubuntu 14.04下Hadoop集群安装

[日期:2017-02-18] 来源:Linux社区  作者:xujpxm [字体: ]

并创建刚才配置文件中指定的目录:

$ mkdir -p /home/hduser/data/hduser/hdfs/{namenode,datanode}
$ chown -R hduser:hdgroup /home/hduser/data/  //如果非hduser用户创建的需要赋权

1).这里dfs.replication的默认值为3,这里我设置了2个副本,代表每个存储到HDFS的文件都有额外一个副本,这里的值可以视集群规模而定。

2)dfs.namenode.name.dir和dfs.datanode.name.dir是namenode和datanode存放HDFS数据块文件的位置,如果没有需要手动创建。

④在master和slave节点上更改"yarn-site.xml"文件,master和slave节点应该使用相同的值,并且指向master节点。在“configuration”中间添加如下配置:

<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>
<property>
 <name>yarn.resourcemanager.scheduler.address</name>
 <value>master:8030</value>
</property>
<property>
 <name>yarn.resourcemanager.address</name>
 <value>master:8032</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address</name>
  <value>master:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.resource-tracker.address</name>
  <value>master:8031</value>
</property>
<property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>master:8033</value>
</property>

⑤更新slave文件

在master节点上修改slave文件,添加master和slave节点的主机名或者ip地址,并去掉"localhost":

$ vim /home/hduser/Hadoop/etc/hadoop/slaves
master
slave-1
slave-2

⑥格式化namenode:

在启动cluster之前需要先格式化namenode,在master上执行:

$ hdfs namenode -format

看到类似提示INFO:"Storage directory /home/hduser/data/hduser/hdfs/namenode has been successfully formatted."表示格式化成功。

⑦启动服务

可以直接使用Hadoop提供的脚本"start-all.sh"启动所有服务,也可以把dfs和yarn分别启动。可以使用绝对路径:/home/hduser/hadoop/sbin/start-all.sh,也可以直接调用start-all.sh脚本(因为前面已经改过PATH的路径):

$ start-all.sh

如下图所示没有看到任何错误信息,表示集群已成功启动:

⑧验证查看

  使用jps命令分别在master和slave上查看启动的服务

网页验证:

浏览器打开:http://master:50070

查看yarn web console: http://master:8088/cluster/nodes

如果所有node均正常启动,这里能够全部显示:

Hadoop解压的share目录里给我们提供了几个example的jar包,我们执行一个看下效果:

$ hadoop jar /home/hduser/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar  pi 30 100

执行之后通过浏览器访问:http://master:8088/cluster/apps

能够看到当前执行的任务:

写在最后:

如果在新增了节点或者删除节点的时候出现了问题,首先删除slave的hadoop.tmp.dir,然后重新启动试试看,如果还是不行,尝试把Master的hadoop.tmp.dir删除(意味着dfs上的数据也会丢失)然后需要重新namenode –format。

如果有任何报错信息记得去查log日志,文件位置在Hadoop的安装目录logs文件夹下。

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址http://www.linuxidc.com/Linux/2017-02/140783.htm

linux
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款