爬虫-python-scrapy框架基本命令

创建一个项目

scrapy startproject name

抓取页面

scrapy crawl 抓取的模块名

网页抓取shell

scrapy shell "目标URL"
//进入shell,获取响应实体
response.body
response.headers

XPath（选择器节点）

//方法
1. text() 获取标签中的文字
2. extract() 获取节点中的文字转换成unicode编码
3. response.xpath('//ul/li/text()').extract() 获取对应节点的文字，转换成unicode编码
4. response.xpath('//ul/li/a/@href').extract()
获取a标签中的URL地址，转换成文字
5. response.xpath('//div[@class="site-title"]/text()').extract()
获取div且class=“site-title”的标签内文章，转换成文字

数据导出

scrapy crawl dmoz -o items.json -t json

最后编辑于：2017.12.10 03:46:49

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

爬虫-python-scrapy框架基本命令

爬虫-python-scrapy框架基本命令

相关阅读更多精彩内容

友情链接更多精彩内容