你好,游客 登录 注册 搜索
背景:
阅读新闻

Spark单机部署及样例运行

[日期:2017-10-12] 来源:Linux社区  作者:xuxinkun [字体: ]

spark单机运行部署

环境预装

需要预先下载jdk和spark。机器使用CentOS 6.6(推荐)。然后依次运行

[root@spark-master root]# cd /root

#安装必要的软件
[root@spark-master root]# yum install -y tar git curl wget

#下载jdk
[root@spark-master root]# wget --no-check-certificate --no-cookies --header "Cookie: Oraclelicense=accept-securebackup-cookie"  http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm

#安装jdk
[root@spark-master root]# rpm -ivh jdk-8u91-linux-x64.rpm

#下载spark
[root@spark-master root]# wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-Hadoop2.6.tgz
  
#解压spark
[root@spark-master root]# tar xzvf spark-1.6.2-bin-hadoop2.6.tgz

配置

  1. 关闭selinux。setenfore 0
  2. 通过hostname查看机器名,然后加入到/etc/hosts中。
  3. 配置/etc/profile。在文件最后添加export JAVA_HOME=/usr/java/jdk1.8.0_91。然后运行source /etc/profile使其生效。

运行spark服务

启动spark master服务

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-master.sh

启动spark node服务

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-slave.sh spark://node1:7077

node1为机器名。根据实际的机器名进行修改。

spark样例运行

通过pyspark进行运算

这里以统计/etc/profile的行数为例。

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6/bin
[root@spark-master bin]# ./pyspark --master local[2]

# 导入数据
>>> distFile = sc.textFile("/etc/profile")

# 统计行数
>>> distFile.count()

这里local[2]代表了在本地启动两个线程模拟node进行计算。如果搭建完成了本地的搭建,即可以使用./pyspark --master spark://node1:7077,从而使用本地的node进行计算。

任务提交

pyspark是使用交互的方式进行提交任务。当然也可以通过spark-submit进行提交。

首先创建test.py文件,文件内容如下:

from pyspark import SparkContext
sc = SparkContext("local", "Simple App")
distFile = sc.textFile("/etc/profile")
print distFile.count()

使用spark-submit提交任务。

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./bin/spark-submit --master local[2] test.py

参考资料

更多Spark相关教程见以下内容

CentOS 7.0下安装并配置Spark  http://www.linuxidc.com/Linux/2015-08/122284.htm

Ubuntu系统搭建单机Spark注意事项  http://www.linuxidc.com/Linux/2017-10/147220.htm

Spark1.0.0部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

Spark2.0安装配置文档  http://www.linuxidc.com/Linux/2016-09/135352.htm

Spark 1.5、Hadoop 2.7 集群环境搭建  http://www.linuxidc.com/Linux/2016-09/135067.htm

Spark官方文档 - 中文翻译  http://www.linuxidc.com/Linux/2016-04/130621.htm

CentOS 6.2(64位)下安装Spark0.8.0详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark-2.2.0安装和部署详解  http://www.linuxidc.com/Linux/2017-08/146215.htm

Spark2.0.2 Hadoop2.6.4全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0 (伪分布式) http://www.linuxidc.com/Linux/2016-03/129068.htm

Spark 的详细介绍请点这里
Spark 的下载地址请点这里

本文永久更新链接地址http://www.linuxidc.com/Linux/2017-10/147499.htm

linux
相关资讯       Spark部署  Spark单机部署  Spark单机 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款