一、简单介绍
先上一张scrapy的架构图
1.scrapy
- 爬虫框架
2.scrapyd
- 爬虫部署服务(最后爬虫运行的地方)
3.gerapy
- 爬虫项目管理工具,基于django的WEB管理界面,结合scrapyd轻松的实现爬虫项目的部署。更多功能的介绍百度知道更多
二、环境准备
1.python3.4+(这里不再叙述python的安装,在我的其它文章里有详细介绍. -- 传送门 --)
2.scrapy
pip install scrapy
3.scrapyd
pip install scrapyd
4.gerapy
pip install scrapyd
三、创建scrapy爬虫项目
1.创建爬虫项目
mkdir my_scrapy_project
cd my_scrapy_project
scrapy startporject
2.创建一个爬虫
cd my_scrapy_project
scrapy genspider spider_name www.baidu.com
spider_name: 爬虫的名字
www.baidu.com: 你爬取网站的域名
爬虫的代码会在项目spider目录中,模块的名字就是你刚创建时的名字
四、创建爬虫项目部署服务
mkdir scrapyd_server
cd scrapyd_server
scrapyd
执行上述命令后scrapyd 服务就已经启动了, 默认连接地址是:http:127.0.0.1:6800 ,启动scrapyd的执行命令在哪个目录下执行,后面部署的代码就会在哪个目录下边,这个要注意
五、创建并启动爬虫项目管理服务
mkdir gerapy_server
cd gerapy_server
gerapy init
cd gerapy
gerapy migrate
# 初始管理员账号密码,执行后,账号:admin 密码:admin
gerapy initadmin
# 启动服务
gerapy runserver 0.0.0.0:8000
创建成功后,在项目目录下会有一个project目录,这里就是用来存放爬虫项目的,将爬虫项目放到这里即可使用gerapy进行部署了
六、添加爬虫部署主机(就是scrapyd)
操作步骤
七、添加爬虫项目并部署scrapyd
1.将爬虫项目拷贝到gerapy项目中的project目录中,进入到gerapy的项目管理页面即可看到该项目了,然后点击打包,打包成功后再选择主机部署(这里只有一个,就是我们上面添加的scrapyd部署主机)
八、调度执行
1.上述操作都完成后,我们就可以进入到主机管理->调度 对爬虫进行执行了.