你好,游客 登录 注册 搜索
背景:
阅读新闻

Hadoop2.0 lzo压缩的安装和配置

[日期:2014-05-02] 来源:Linux社区  作者:sstudent [字体: ]

lzo压缩格式有很快的压缩/解压速度和合理的压缩率,并且支持分块(split),所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的,如果要支持lzo,需要另外安装。本文介绍了在hadoop2.0上安装和配置lzo,同样也适用于hadoop1.0。

相关阅读

Ubuntu 13.04上搭建Hadoop环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu下Hadoop环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建Hadoop环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop集群上使用Lzo压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

1 安装linux的lzo库

需要在集群的每一个节点都安装lzo库,假定都64位的机器。

在http://rpm.pbone.net/index.php3/stat/4/idpl/12088286/dir/RedHat_el_5/com/lzo2-2.02-3.el5.rf.x86_64.rpm.html下载rpm包lzo2-2.02-3.el5.rf.x86_64.rpm 并安装

sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm

在http://rpm.pbone.net/index.php3/stat/4/idpl/18007725/dir/redhat_el_5/com/lzo-devel-2.06-1.el5.rf.x86_64.rpm.html下载rpm包lzo-devel-2.06-1.el5.rf.x86_64.rpm并安装

sudo rpm -ivh lzo-devel-2.06-1.el5.rf.x86_64.rpm

在http://pkgs.repoforge.org/lzop/下载rpm包lzop-1.03-1.el5.rf.x86_64.rpm并安装

sudo rpm -ivh lzop-1.03-1.el5.rf.x86_64.rpm

lzop是一个linux下的lzo压缩命令行工具,方便大家在linux下压缩lzo文件,不是必需的。

2 安装hadoop-lzo包

可以下载kevinweil的hadoop-lzo项目,下载地址:https://github.com/kevinweil/hadoop-lzo

也可以下载twitter的hadoop-lzo项目,下载地址:https://github.com/twitter/hadoop-lzo/

twitter的一直在更新和维护,建议下载twitter的

wget https://github.com/twitter/hadoop-lzo/archive/master.zip --no-check-certificate  -O master.zip

下载之后解压

upzip master.zip

解压之后是一个目录hadoop-lzo-master

可以修改目录hadoop-lzo-master里的pom.xml,把hadoop.current.version的属性从hadoop2.1.0-beta改为Hadoop 2.2.0(这个不修改也没有问题,不过还是建议改一下)

64位环境的需要设置两个环境变量:

export CFLAGS=-m64

export CXXFLAGS=-m64

然后就可以用maven编译了

cd hadoop-lzo-master

mvn clean package -Dmaven.test.skip=true

注意:如果前面的linux lzo库没有安装在标准目录下,在用maven编译前需要设置C_INCLUDE_PATH和LIBRARY_PATH这两个环境变量,指出lzo的头文件和库文件在哪个目录,如:

export C_INCLUDE_PATH=/usr/local/lzo-2.06/include

export LIBRARY_PATH=/usr/local/lzo-2.06/lib

编译好之后把编译出来的本地库和jar包hadoop-lzo-0.4.18-SNAPSHOT.jar拷贝到相应的目录,并拷贝到集群的每一个节点上的相应的目录。

cp target/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/

cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar  $HADOOP_HOME/share/hadoop/mapreduce/lib/

3 修改hadoop的配置文件core-site.xml

修改/增加以下2个参数:

<property>

      <name>io.compression.codecs</name>

      <value>org.apache.hadoop.io.compress.GzipCodec,

              org.apache.hadoop.io.compress.DefaultCodec,

              org.apache.hadoop.io.compress.BZip2Codec,

              com.hadoop.compression.lzo.LzoCodec,

              com.hadoop.compression.lzo.LzopCodec

        </value>

</property>

<property>

        <name>io.compression.codec.lzo.class</name>

        <value>com.hadoop.compression.lzo.LzoCodec</value>

</property>


4 hadoop客户机lzo的安装和配置

和hadoop服务器的机器上的安装和配置一样。

5 测试

可以运行以下hdfs命令看是否成功

$HADOOP_HOME/bin/hdfs dfs -text /path/to/file.lzo

运行一个以lzo文件为输入的作业是否运行成功

6 实战tips

在hadoop2.0中,把maven编译好的jar包hadoop-lzo-0.4.18-SNAPSHOT.jar拷贝到 $HADOOP_HOME/share/hadoop/mapreduce/lib/或者$HADOOP_HOME/share/hadoop/mapreduce/目录下,不需要重启hadoop集群。

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址http://www.linuxidc.com/Linux/2014-05/101090.htm

linux
相关资讯       Hadoop2.0  lzo安装 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款