产生步骤(一)
应用Scrapy爬虫框架主要时编写配置型代码
步骤1:建立一个Scrapy爬虫工程
选取一个目录(G:\pycodes\),然后执行以下命令
生成的工程目录:
产生步骤(二)
步骤2:在工程中生成一个Scrapy爬虫
进入工程目录然后执行以下命令
该命令作用:
(1)生成一个名为demo的spider
(2)在spiders目录下增加demo.py文件
(该命令仅用于生成demo.py,该文件也可以手工生成)
demo.py文件
parse()用于处理响应,解析内容形成字典,发现新的URL爬取请求
产生步骤(三)
步骤3:配置产生的spider爬虫
配置:
(1)初始的URL地址
(2)获取页面后的解析方式
产生步骤(四)
步骤4:运行爬虫,获取网页
在命令行下执行如下命令
demo爬虫被执行,捕获页面被储存在demo.html
demo.py代码的完整版
两个等价版本的区别:yield关键字的使用