使用python搭建爬虫项目,基于scrapy+scrapyd+gerapy

一、简单介绍

先上一张scrapy的架构图

image.png

1.scrapy

爬虫框架

2.scrapyd

爬虫部署服务（最后爬虫运行的地方）

3.gerapy

爬虫项目管理工具,基于django的WEB管理界面,结合scrapyd轻松的实现爬虫项目的部署。更多功能的介绍百度知道更多

二、环境准备

1.python3.4+（这里不再叙述python的安装,在我的其它文章里有详细介绍. -- 传送门 --)
2.scrapy

pip install scrapy

3.scrapyd

pip install scrapyd

4.gerapy

pip install scrapyd

三、创建scrapy爬虫项目

1.创建爬虫项目

mkdir my_scrapy_project
cd my_scrapy_project
scrapy startporject

2.创建一个爬虫

cd my_scrapy_project
scrapy genspider spider_name www.baidu.com

spider_name: 爬虫的名字
www.baidu.com: 你爬取网站的域名
爬虫的代码会在项目spider目录中,模块的名字就是你刚创建时的名字

四、创建爬虫项目部署服务

mkdir scrapyd_server
cd scrapyd_server
scrapyd

执行上述命令后scrapyd 服务就已经启动了, 默认连接地址是:http:127.0.0.1:6800 ,启动scrapyd的执行命令在哪个目录下执行,后面部署的代码就会在哪个目录下边,这个要注意

五、创建并启动爬虫项目管理服务

mkdir gerapy_server
cd gerapy_server
gerapy init
cd gerapy
gerapy migrate
# 初始管理员账号密码,执行后,账号:admin 密码:admin
gerapy initadmin
# 启动服务
gerapy runserver 0.0.0.0:8000

创建成功后,在项目目录下会有一个project目录,这里就是用来存放爬虫项目的,将爬虫项目放到这里即可使用gerapy进行部署了

image.png

六、添加爬虫部署主机（就是scrapyd)

操作步骤

image.png

七、添加爬虫项目并部署scrapyd

1.将爬虫项目拷贝到gerapy项目中的project目录中,进入到gerapy的项目管理页面即可看到该项目了,然后点击打包,打包成功后再选择主机部署(这里只有一个,就是我们上面添加的scrapyd部署主机)

八、调度执行

1.上述操作都完成后，我们就可以进入到主机管理->调度对爬虫进行执行了.