scrapy爬虫

image.png
scrapy爬虫.png
image.png

运行爬虫 scrapy crawl +<爬虫名字>
Scrapy的安装:pip install scrapy
创建scrapy的项目:scrapy startproject myspider
创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn
运行scrapy爬虫:在项目目录下执行 scrapy crawl itcast
解析并获取scrapy爬虫中的数据:
response.xpath() 方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串,列表为空没有返回None
scrapy管道的基本使用:

完善pipelines.py中的 process_item 函数
在settings.py中设置开启pipeline
ITEM_PIPELINES = {
'myspider.pipelines.ItcastPipeline': 400
}

数据库pipeline的设置
process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容