简单了解一下Scrapy框架于操作步骤
什么是Scrapy框架呢?
scrapy是python下的数据爬取集框架,使用scrpay爬取数据,速度更快。并且可以很快的搭建爬取程序。
1.需求工具 pycharm 小说网的域名 (www.top.china.com)
第一步—–创建文件
scrapy startproject myspider
新建爬虫文件
scrapy genspider zzw china.com
第二步——将创建在桌面上的scrapy文件用pycharm打开:
这是创建成功后在pycharm中的显示
新建爬虫文件
第三步——–编写爬虫代码
这个代码是你创建好文件以后里面就有
3.代码思路
1)请求导航条上的每个按钮对应的页面
2)分别解析每个页面的列表(主要获得网页的详情url)
3)请求详情url,解析网页的详细信息(周排名,反链接数,简介,网站排名,得分,网站图片地址)
4)根据下载地址下载到本地
找到列表页的url:
第四步——设置item /与存储有关
将需要存储的信息写入,如图所示:
第五步——配置pipelines/与储存有关
第六步——在Terminal中输入运行命令
scrapy+crawl+爬虫名称