你好,游客 登录 注册 搜索
背景:
阅读新闻

Apache Hadoop 2.3.0发布

[日期:2014-02-28] 来源:infoq  作者:Linux [字体: ]

分布式计算开源框架Hadoop近日发布了今年的第一个版本Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量bug。

新版本对HDFS做了两个非常重要的增强:

借助于HDFS对异构存储层次的支持,我们将能够在同一个Hadoop集群上使用不同的存储类型。此外我们还可以使用不同的存储媒介——例如商业磁盘、企业级磁盘、SSD或者内存等——更好地权衡成本和收益。如果你想更详细地了解与该增强相关的信息,那么可以访问这里

类似地,在新版本中我们还能使用Hadoop集群中的可用内存集中地缓存并管理数据节点内存中的数据集。MapReduce、Hive、Pig等类似的应用程序将能够申请内存进行缓存,然后直接从数据节点的地址空间中读取内容,通过完全避免磁盘操作极大地提高扫描效率。Hive现在正在为ORC文件实现一个非常有效的零复制读取路径,该功能就使用了这项新技术。

YARN方面,令我们非常兴奋的事情是资源管理器自动故障转移功能已经进入尾声,虽然在2.3.0这个版本中该功能还没有被发布,但是极有可能会包含在Hadoop-2.4中。此外,2.3.0版本还对YARN做了一些关键的运维方面的增强,例如更好的日志、错误处理和诊断等。

MapReduce的一个关键增强是MAPREDUCE-4421。借助于该功能我们已经不再需要在每一台机器上安装MapReduce二进制程序,仅仅需要通过YARN分布式缓存将一个MapReduce包复制到HDFS中就可以了。

当然,新版本还包含大量的bug修复以及其他方面的增强。例如:

  • YarnClientImpl类中的异步轮询操作引入了超时
  • 修复了RMFatalEventDispatcher没有记录事件原因的问题
  • HA配置不会影响节点管理器的RPC地址
  • RM Web UI和REST API统一使用YarnApplicationState
  • 在RpcResponseHeader中包含RPC错误信息,而不是将其分开发送
  • 向jetty/httpserver中添加了请求日志
  • 修复了将dfs.checksum.type定义为NULL之后写文件和hflush会抛出java.lang.ArrayIndexOutOfBoundsException的问题

如果想要了解更多的信息,请点击这里。不得不说的是,整个社区在Hadoop-2.3.0版本的发布过程中再次发挥了非常重要的作用,他们提交了很多非常重要的内容。

最后,让我们展望一下2.4版本中将会包含的一些非常令人兴奋的功能:

  • HDFS将会支持ACL
  • 关键的运营能力,例如HDFS支持滚动更新,使用ProtoBufs序列化/反序列化FSImage
  • YARN资源管理器自动故障转移功能
  • YARN通用应用程序时间轴和历史服务,使得在YARN中开发和管理新框架及服务变得非常容易

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

linux
相关资讯       Hadoop下载  Hadoop 2.3.0 
本文评论   查看全部评论 (6)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
第 6 楼
* 追风的^筝会员 发表于 2014/2/28 19:06:43
Linux公社,一个神奇的网站,你们觉得呢?
第 5 楼
* slow2go会员 发表于 2014/2/28 18:54:18
初来乍到 mark一下 祝大家好运
第 4 楼
* X_PLO会员 发表于 2014/2/28 16:52:54
我又来了
第 3 楼
* summy会员 发表于 2014/2/28 16:46:24
这次一定要抢到
第 2 楼
* kiron会员 发表于 2014/2/28 16:44:06
逛linux公社天天涨知识