第二步:配置Java、Scala、Saprk
咱们一次性将需要的软件全部复制到/home/data目录下备用。需要注销使用root登录,其他用户权限不够。
Root用户可以直接在UI下面操作,顺便解压好。
然后切换回Hadoop用户(*重要)
配置Java路径:
sudo gedit /etc/profile
在最后一行回车加上:
#JAVA VARIABLES START
export JAVA_HOME=/home/data/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin
#JAVA VARIABLES END
然后刷新系统配置,检查Java安装情况:
source /etc/profile
java -version
看到这个说明Java环境安装成功。
接下来配置Scala环境:
sudo gedit /etc/profile
在最后一行加上:
#SCALA VARIABLES START
export SCALA_HOME=/home/data/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin
#SCALA VARIABLES END
然后刷新系统配置,检查Java安装情况:
source /etc/profile
scala -version
看到下图说明成功:
接下来配置Spark环境:
sudo gedit /etc/profile
在最后一行加上:
#SPARK VARIABLES START
export SPARK_HOME=/home/data/spark-1.4.0-bin-hadoop2.4
export PATH=$PATH:$SPARK_HOME/bin
#SPARK VARIABLES END
配置完成的profile文件应该如下图:
然后刷新系统配置:
source /etc/profile
进入spark的conf目录:
备份文件:
sudo mv spark-env.sh.template spark-env.sh
然后编辑新建的文件:
sudo gedit spark-env.sh
在文件最下面加入:
export SCALA_HOME=/home/data/scala-2.11.7
export JAVA_HOME=/home/data/jdk1.7.0_79
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=1024m
export master=spark://localhost 7070
最后还应该编辑该目录下的slaves中机器名,因为我机器名就叫localhost,所以就不编辑了。
第三步:运行Spark
启动Spark集群。
进入sbin目录:
然后在浏览器中访问:localhost:8080
从页面上可以看到一个Worker节点的信息。
我们进入spark的bin目录,使用“spark-shell”控制台:
应该无错出现下面界面:
测试下:
通过访问"http://localhost:4040",进入spark-shell web控制台页面:
输入:
hello world
hello hadoop
pls say hello
然后在Scala命令行输入读取程序:
val readFile = sc.textFile("file:///home/file/test1.txt")
再执行:
readFile.collect
查看spark-shell web控制台:
Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里
更多CentOS相关信息见CentOS 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=14
本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-08/122284.htm