1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种常见的爬取方式

1.scrapy框架讲解：

downloader实际上是一个下载器，给一个网址发起请求，downloader就负责下载
从scheduler力需要爬取的网址丢给downloader。
spiders的作用是啥，我们爬数据时候页面里面还有链接，返回我们需要继续爬取的链接继续爬。spiders把要的数据给pipline然后发现还有些需要的链接给scheduler，然后形成了一个循环。
我们要抓取大型的数据，需要初始化一个项目，像淘宝这种大型网站，数据抓取，处理等等。但是平时我们需要抓取一些量不多的数据，为了方便，我们只写spider.py.
还有注意：有些是静态网站，有些是动态网站（js,ajax）配置downloadermiddlewares来完成
2.了解scrapy spider：
2.1先知道这个命令:
运行蜘蛛的命令：scrapy runspider spider_test1.py
把运行好的数据写入文件命令：scrapy runspider spider_test1.py -o spider_test1.csv
scrapy runspider spider.py -o xxx.csv 运行一个蜘蛛，再写到csv文件中
2.2scrapy spider几种爬取方式：
1.爬取1页内容
2.按照给定列表爬取多页给多个url，自己拼接，url用脚本生成好了，在一个列表里灌给蜘蛛
3."下一页"类型
4.按照链接进行爬取

最后编辑于：2017.12.07 04:53:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种常见的爬取方式

1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种常见的爬取方式

相关阅读更多精彩内容

友情链接更多精彩内容