Scrapy的基本使用(一)

产生步骤(一)

应用Scrapy爬虫框架主要时编写配置型代码

步骤1:建立一个Scrapy爬虫工程
选取一个目录(G:\pycodes\),然后执行以下命令

生成的工程目录:



产生步骤(二)

步骤2:在工程中生成一个Scrapy爬虫
进入工程目录然后执行以下命令


该命令作用:
(1)生成一个名为demo的spider
(2)在spiders目录下增加demo.py文件
(该命令仅用于生成demo.py,该文件也可以手工生成

demo.py文件

parse()用于处理响应,解析内容形成字典,发现新的URL爬取请求

产生步骤(三)

步骤3:配置产生的spider爬虫
配置:
(1)初始的URL地址
(2)获取页面后的解析方式

产生步骤(四)

步骤4:运行爬虫,获取网页
在命令行下执行如下命令


demo爬虫被执行,捕获页面被储存在demo.html

demo.py代码的完整版

两个等价版本的区别:yield关键字的使用

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容