你好,游客 登录 注册 搜索
背景:
阅读新闻

如何使用MapReduce构建Solr索引

[日期:2017-07-09] 来源:Linux社区  作者:荧光小炉 [字体: ]

Solr 是什么?

Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的 Java 来实现。服务 器通信使用标准的 HTTP 和 XML ,所以如果使用Solr 了解 Java 技术会有用却不是必须的要求。

Solr主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和 电子文档(Word ,PDF 等)的处理。而且 Solr具有高度的可扩展,支持分布搜索和索引的复制。

用MapReduce构建Solr索引

本文在markrmiller的repo上做了一些改动,成功地在Hadoop上利用MapReduce创建了Solr的索引。

实验环境

  • Ubuntu 16.04的虚拟机一台(2GB 内存,1核)
  • 安装JDK 7+

实验步骤

首先要能够免密登录localhost:

sudo apt-get install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

现在ssh localhost就不再需要输入密码了。

接下来先安装一个在运行过程中要用到的软件unzip:

sudo apt-get install unzip

然后从github下载源码到根目录,然后运行run-example.sh

git clone https://github.com/scuxiayiqian/solr-map-reduce-example.git
cd solr-map-reduce-example
bash run-example.sh

运行成功后程序就会启动一个MapReduce的任务对下载下来的Twitter数据建立索引,并上传到Solr Cloud上去。运行完成后我们可以通过http://127.0.0.1:8983/solr来查看结果。也可以通过http://127.0.0.1:50075http://127.0.0.1:8042分别访问NameNode和Yarn。

更多Solr相关教程见以下内容

Solr3.6.1 在Tomcat6下的环境搭建 http://www.linuxidc.com/Linux/2013-01/77664.htm

Apache Solr: 安装和运行 http://www.linuxidc.com/Linux/2016-12/138527.htm

在 Ubuntu 12.04 LTS 上通过 Tomcat 部署 Solr 4 http://www.linuxidc.com/Linux/2012-09/71158.htm

Solr实现Low Level查询解析(QParser) http://www.linuxidc.com/Linux/2012-05/59755.htm

Solr6.0.0 + Tomcat8 配置问题 http://www.linuxidc.com/Linux/2016-05/131845.htm

基于Solr 3.5搭建搜索服务器 http://www.linuxidc.com/Linux/2012-05/59743.htm

Solr 3.5开发应用教程 PDF高清版 http://www.linuxidc.com/Linux/2013-10/91048.htm

Solr 4.0 部署实例教程 http://www.linuxidc.com/Linux/2013-10/91041.htm

Solr5.2.1+Zookeeper3.4.8分布式集群搭建  http://www.linuxidc.com/Linux/2017-06/144927.htm

Solr5.5.4单机版安装  http://www.linuxidc.com/Linux/2017-04/143044.htm

Solr 的详细介绍请点这里
Solr 的下载地址请点这里

本文永久更新链接地址http://www.linuxidc.com/Linux/2017-07/145507.htm

linux
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款