- scrapy爬虫项目,服务器上安装
pip install scrapyd
- 开发的程序所在的电脑
pip install scrapyd-client
如果是部署、开发在同一台电脑上
pip install scrapyd scrapyd-client
- 在python环境中的Script新建文本文件
scrapyd-deploy.bat
。
文件内容:
@echo off
#找到python文件 执行文件命令
"F:\env\Scripts\python.exe" "F:\env\Scripts\scrapyd-deploy" %*
- 打开命令窗口,运行命令
scrapyd-deploy
# 出现提示信息,则成功
Error: no Scrapy project found in this location
5.新建一个文件目录,存放项目。
进入到目录下,启动scrapyd服务器:scrapyd
6.在scrapy.cfg中更改数据。
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html
[settings]
default = haibao.settings
[deploy:haibao]
url = http://localhost:6800/
project = haibao
7.部署爬虫到服务器(cd到项目目录下,运行命令)
scrapyd-deploy 服务器项目名称 -p 本地项目名称
scrapyd-deploy haibao -p haibao
- 使用curl命令查看项目情况。如果失败安装下载工具包。
http://curl.haxx.se/download.html - 查看命令
远程启动爬虫项目
curl http://localhost:6800/scheduler.json-d project=myproject -d spider=myspider
远程停止/删除爬虫项目-工作计划job
curlhttp://localhost:6800/cancel.json -d project=<PROJECT_NAME> -d job=<JOB_ID>
查看服务器负载状态
curl http://localhost:6800/daemonstatus.json
查看服务器中所有的项目信息
curl http://localhost:6800/listprojects.json
查看某个特定项目的爬虫列表信息
curl http://localhost:6800/listspiders.json?project=myproject
查看指定项目的任务列表
curl http://localhost:6800/listjobs.json
删除某个项目在服务器上的某个版本
curl http://localhost:6800/delversion.json -d project=myproject -d version=1543545055
删除项目在服务器上所有版本
curl http://localhost:6800/delproject.json -d project=myproject
2. gerapy分布式爬虫管理工具[开发爬虫程序的电脑上使用的]
安装:
pip install pymongo【依赖模块】
pip install gerapy
初始化:进入需要配置部署管理项目的文件夹
gerapy init
gerapy migrate
启动管理平台
gerapy runserver
打开浏览器:访问管理平台界面
http://localhost:8000