scrapy爬虫

image.png

scrapy爬虫.png

image.png

运行爬虫 scrapy crawl +<爬虫名字>
Scrapy的安装：pip install scrapy
创建scrapy的项目:scrapy startproject myspider
创建scrapy爬虫：在项目目录下执行 scrapy genspider itcast itcast.cn
运行scrapy爬虫：在项目目录下执行 scrapy crawl itcast
解析并获取scrapy爬虫中的数据：
response.xpath() 方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
scrapy管道的基本使用:

完善pipelines.py中的 process_item 函数
在settings.py中设置开启pipeline
ITEM_PIPELINES = {
'myspider.pipelines.ItcastPipeline': 400
}

数据库pipeline的设置
process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

最后编辑于：2018.09.20 17:37:58

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

scrapy爬虫

scrapy爬虫

相关阅读更多精彩内容

友情链接更多精彩内容