互联网高速发展,信息量不断膨胀,各种大型搜索引擎的访问量迅速增加,与此同时这些大型系统都记录下了海量的用户访问和查询日志,挖掘出日志中蕴藏的信息来改进搜索引擎性能、提升服务质量是非常有价值的,然而传统的日志分析和数据统计方法受到单机内外存、CPU 资源有限的限制,在进行海量日志数据的分析时运到了瓶颈。Hadoop 作为著名开源组织Apache 旗下专注于分布式存储和计算的开源项目,越来越收到重视,现在广泛应用于网页搜索、日志分析、广告计算、数据挖掘等领域。
本文以国内著名搜索引擎的用户查询日志为数据源,介绍了Hadoop 在文本处理及数据分析中的应用,使用的数据为搜索引擎用户查询日志。并根据实验结果提出Hadoop 在数据分析中的应用设计方法。
文献[1]提出利用Map/Reduce 进行文本分析的方法,包括文本倒排索引和图论相关的应用;文献[3]提出对用户搜索日志进行分类的理论方法,但未给出具体的数据分析操作和效率;文献[4]提出了对用户查询进行相关性分析的理论方法,并对某搜索引擎的某20 个热点查询词进行实际数据分析,但欠缺对大数据量的实验分析和验证;因此本文在前面的研究成果之上,在Hadoop 分布式计算平台上对超过G 级的搜索日志数据进行数据分析,并提出在该平台上进行分布式程序设计的部分具有普适性的方法。
免费下载地址在 http://linux.linuxidc.com/
用户名与密码都是www.linuxidc.com
具体下载目录在 /2012年资料/2月/4日/基于Hadoop平台的数据分析方案的设计应用 PDF/
