登录注册写文章

python/scrapy tips

python/scrapy tips

1.以utf8方式打开文件：

import io with io.open(filename,"w",encoding="utf8") as f

2.以追加方式写入文件：

import io with io.open(filename,"a",encoding="utf8") as f

3.关于xpath()[0]

后面加0代表着可能抽取到多个元素，在这么多元素中取第一个满足条件的；比如下图：

div底下有两个a；若想取第一个，可这么写xpath('//div[@class = "list-footer"]/a/text()')[0].extract()

若想取第二个a，可这么写：xpath('//div[@class = "list-footer"]/a/text()')[1].extract()

4.使用scrapy抓取数据的时候，用时候会被网站的robots 协议禁止抓取；具体表现为：[scrapy] DEBUG: Forbidden by robots.txt；因为scrapy默认是遵循robots协议的；如果还是像抓取，可在settings.py文件中设置：ROBOTSTXT_OBEY=False

最后编辑于：2017.12.03 06:20:32

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

网络爬虫Scrapy从入门到进阶
Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
treelake阅读 51,349评论 8赞 111
scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 12,780评论 4赞 46
小日子
孩子们的暑假来了，真的是羡慕，对于工作的我，心里有一个小小的梦，好想把英语学好，英语一直以来都是我的痛，从初中起就...
糖葫芦酸溜溜阅读 176评论 0赞 0
王婷｜孤旅
我一直在等。朝日初醒，山头的绿苍苍得晕开，阿婆的呼喊，乒乒乓乓地锅碗瓢盆传入每一个乡里的耳朵，木琳微愣的眼才回过...
温度写作社阅读 336评论 0赞 0
初夏
事发生在2008年，当时我只是一个高二的学生。我喜欢一个女生，但我没有见过她。她并不是我的网友，她是校园广播员，...
GavinZ阅读 263评论 3赞 2

赞1赞

赞赏

手机看全文