执行WordCount实例
执行WordCount实例过程与伪分布式模式一样。首先创建所需的几个目录
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/Hadoop
将etc/hadoop中的文件作为输入文件复制到分布式文件系统中。
bin/hdfs dfs -put etc/hadoop input
通过查看DataNode的状态(占用大小有改变),输入文件确实复制到了DataNode中。
接着就可以运行MapReduce作业了。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
运行时的信息如下所示,显示Job的进度。可能会比较慢,但如果迟迟没有进度,比如10分钟都没看到进度,那不妨重启Hadoop再试试。
同样可以通过Web界面查看任务进度 http://master:8088/cluster
在 Web 界面点击 “Tracking UI” 这一列的 History,可能会提示网页无法打开,遇到这种情况需要手动开启 jobhistory server,开启之后刷新页面再点击就可以打开了。
/usr/local/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver
执行完毕后的输出结果:
更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13
本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-02/113486.htm