一、scrapyd(将爬虫部署到Scrapyd中)简介
- Scrapyd是一个运行Scrapy spider的开源应用程序。
它能够运行和监控Scrapy蜘蛛(爬虫)
。要将spider部署到Scrapyd,可以使用由Scrapyd客户端包提供的Scrapyd-deploy工具。
二、Scrapyd安装
1、Scrapyd依赖于以下库,但安装过程负责安装缺少的库:
- Python2.6以上
- Twisted8.0以上
- Scrapy0.17以上
2、如何安装Scrapyd取决于您正在使用的平台。通用的方法是通过pip包管理工具来安装它:
pip install scrapyd
3、安装之后 通过scrapyd命令启动即可:
- 运行命令:
scrapyd
4、scrapyd带有一个最小的Web界面,启动后,通过访问http://localhost:6800。如下图:
三、 项目部署流程
1、安装scrapyd-client:
pip install scrapyd-client
-
2、cd到项目根目录,修改scrapy.cfg文件
3、将爬虫部署到scrapyd中。
(1)在ubuntu中直接在根目录运行命令,语法如下:scrapyd-deploy <target> -p <projectname>
(2)在windows下:python absolute_dir/scrapyd-deploy.py xinlan
4、部署操作会打包你当前项目。从返回的结果里面,可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前主机名称。
5、执行以下命令启动爬虫:
curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名字
6、执行以下命令停止爬虫:
curl http://localhost:6800/cancel.json -d project=tutorial -d job=4fc26e4209da11e9b344000c292b8398
四、API(scrapyd主要是用来监控爬虫的运行,进行调度的是scrapyd中的API)
scrapyd的web界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。
官方文档:https://scrapyd.readthedocs.io/en/latest/api.html
五、scrapyd设置
Scrapyd在以下位置搜索配置文件,并按顺序解析它们,最新的配置文件具有更高的优先级:
0/etc/scrapyd/scrapyd.conf (Unix)
c:\scrapyd\scrapyd.conf (Windows)
/etc/scrapyd/conf.d/* (in alphabetical order, Unix)
scrapyd.conf
-
~/.scrapyd.conf (users home directory)