本文只是一个简明教程,如果要深入研究和学习,强烈建议你看官方文档。
scrapyd和scrapyd-client是什么
scrapyd是免费开源的工具,用来管理你创建的scrapy项目的有界面的管理工具。
scrapy-client是是免费开源的工具,用来打包并发布你的scrapy项目到scrapyd。用scrapyd发布要麻烦一些。这个工具简化了发布步骤。
scrapyd安装方法
本人试过使用pip install scrapyd 安装,但失败。使用源代码安装成功,下面是使用源代码安装方法。
第一步:git 源代码到本地
git clone https://github.com/scrapy/scrapyd.git
第二步:从源代码中安装
在终端CD进入源代码目录。
python3 setup.py install
scrapyd-client安装方法
与scrapyd安装基本一样
第一步:git 源代码到本地
git clone https://github.com/scrapy/scrapyd-client.git
第二步:从源代码中安装
在终端CD进入源代码目录。
python3 setup.py install
开启scrapyd
在终端使用scrapyd命令启动。
打开管理界面地址:http://localhost:6800/
发布scrapy项目到scrapyd
发布一个scrapy项目有几种方法,这里介绍最简单的一种。
第一步:在终端使用cd命令进入scrapy项目根目录,打开scrapy.cfg,按下面默认的格式修改。修改目标地址url和项目名称project。
[deploy]
url = http://localhost:6800/
username = scrapy
password = secret
project = yourproject
第二步:使用下面命令打包项目
scrapyd-deploy
打包成功返回的信息
Deploying to project "gjtjj" in http://localhost:6800/addversion.json
Server response (200):
{"status": "ok", "spiders": 1, "node_name": "chg-vm", "project": "gjtjj", "version": "1484986344"}
第三步:上传并发布项目
你只需要修改project名称与你发布时一致,spider名称与你的爬虫名称一致就可以。
curl http://localhost:6800/schedule.json -d project=gjtjj -d spider=gjtjjSpider
发布成功返回的信息
{"status": "ok", "jobid": "8d2be2b2dfb211e6b92d000c2967de0e", "node_name": "chg-vm"}
第四步:打开目标地址http://localhost:6800/, 你发布的项目就是JOB,通过log查看运行情况。