手机版
你好,游客 登录 注册
背景:
阅读新闻

基于Hadoop平台的数据分析方案的设计应用 PDF

[日期:2012-02-04] 来源:Linux社区  作者:Linux [字体: ]

互联网高速发展,信息量不断膨胀,各种大型搜索引擎的访问量迅速增加,与此同时这些大型系统都记录下了海量的用户访问和查询日志,挖掘出日志中蕴藏的信息来改进搜索引擎性能、提升服务质量是非常有价值的,然而传统的日志分析和数据统计方法受到单机内外存、CPU 资源有限的限制,在进行海量日志数据的分析时运到了瓶颈。Hadoop 作为著名开源组织Apache 旗下专注于分布式存储和计算的开源项目,越来越收到重视,现在广泛应用于网页搜索、日志分析、广告计算、数据挖掘等领域。

本文以国内著名搜索引擎的用户查询日志为数据源,介绍了Hadoop 在文本处理及数据分析中的应用,使用的数据为搜索引擎用户查询日志。并根据实验结果提出Hadoop 在数据分析中的应用设计方法。

文献[1]提出利用Map/Reduce 进行文本分析的方法,包括文本倒排索引和图论相关的应用;文献[3]提出对用户搜索日志进行分类的理论方法,但未给出具体的数据分析操作和效率;文献[4]提出了对用户查询进行相关性分析的理论方法,并对某搜索引擎的某20 个热点查询词进行实际数据分析,但欠缺对大数据量的实验分析和验证;因此本文在前面的研究成果之上,在Hadoop 分布式计算平台上对超过G 级的搜索日志数据进行数据分析,并提出在该平台上进行分布式程序设计的部分具有普适性的方法。

免费下载地址在 http://linux.linuxidc.com/

用户名与密码都是www.linuxidc.com

具体下载目录在 /2012年资料/2月/4日/基于Hadoop平台的数据分析方案的设计应用 PDF/

linux
本文评论   查看全部评论 (2)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
第 2 楼
* mfj007 发表于 2012/3/16 16:02:16
下载不了呀
第 1 楼
* 蔡藩 发表于 2012/2/5 12:02:49
论文?下下来学习学习...