python/scrapy tips

1.以utf8方式打开文件:

import io      with io.open(filename,"w",encoding="utf8") as f

2.以追加方式写入文件:

import io    with io.open(filename,"a",encoding="utf8") as f

3.关于xpath()[0]

后面加0代表着可能抽取到多个元素,在这么多元素中取第一个满足条件的;比如下图:

div底下有两个a;若想取第一个,可这么写xpath('//div[@class = "list-footer"]/a/text()')[0].extract()

若想取第二个a,可这么写:xpath('//div[@class = "list-footer"]/a/text()')[1].extract()

4.使用scrapy抓取数据的时候,用时候会被网站的robots 协议禁止抓取;具体表现为:[scrapy] DEBUG: Forbidden by robots.txt;因为scrapy默认是遵循robots协议的;如果还是像抓取,可在settings.py文件中设置:ROBOTSTXT_OBEY=False

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
    treelake阅读 51,349评论 8 111
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,780评论 4 46
  • 孩子们的暑假来了,真的是羡慕,对于工作的我,心里有一个小小的梦,好想把英语学好,英语一直以来都是我的痛,从初中起就...
    糖葫芦酸溜溜阅读 176评论 0 0
  • 我一直在等。 朝日初醒,山头的绿苍苍得晕开,阿婆的呼喊,乒乒乓乓地锅碗瓢盆传入每一个乡里的耳朵,木琳微愣的眼才回过...
    温度写作社阅读 336评论 0 0
  • 事发生在2008年,当时我只是一个高二的学生。 我喜欢一个女生,但我没有见过她。她并不是我的网友,她是校园广播员,...
    GavinZ阅读 263评论 3 2