你好,游客 登录 注册 搜索
背景:
阅读新闻

在Ubuntu 12.04中配置分布式爬虫框架——Cola

[日期:2013-07-02] 来源:oschina.net  作者:鄂世嘉 [字体: ]

Cola是一个用Python编写的分布式爬虫框架,其目的是为了方便分布式的部署,目前虽仍有很多不完善的地方,但仍然值得对其进行一番探索。本文将对Cola的运行环境配置进行一番较为详细的介绍。在配置之前,请保证系统已经有正常的编译工具(gcc, make, autoconf, etc.)。另外,可能需要先安装python-dev:

sudo apt-get install python-dev

1 安装MongoDB
Cola所采用的数据库为文档型数据库MongoDB,因此首先需要配置MongoDB,这里给出一种较为方便的部署方法。

MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:

sudo apt-key adv --keyserver keyserver.Ubuntu.com --recv 7F0CEB10

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list

sudo apt-get update

经过以上几步之后,就可以安装最新稳定版本的MongoDB:

sudo apt-get install mongodb-10gen

安装完毕后,会自动启动MongoDB服务。

2 安装PIP
PIP是一个Python的包管理工具。因为Cola依赖很多的Python库,为了方便后期的安装,我们需要先配置好PIP。PIP本身依赖于setuptools,因此在安装PIP前,需要先安装setuptools,具体的方法如下:

wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl 

curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py 

sudo python get-pip.py

3 配置Cola所依赖的库
sudo apt-get install libyaml-dev 

sudo pip install pyyaml 

sudo pip install mechanize 

sudo pip install python-dateutil 

sudo pip install BeautifulSoup4 

sudo pip install mongoengine 

sudo easy_install rsa 

git clone https://github.com/chineking/cola.git

在最后一个命令中,我们获取Cola的源代码,之后就可以单机模式或分布式模式来运行了,具体可以参见:https://github.com/chineking/cola/wiki

更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2

linux
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款