scrapy写爬虫时候的错误和问题总结

  • 请求的时候没有返回response
    结论: 更改settings.py中的ROBOTSTXT_OBEYFalse
    爬取的时候,发现responseNone,本来以为是该页面做了保密机制,以及一些防爬虫的机制,所以之后伪装成浏览器,发现也不可以,查了一些资料,发现问题所在在robots.txt
    scrapy shell中调试发现这一行
    2017-01-17 11:55:02 [scrapy] DEBUG: Crawled (200) <GET http://xxx.com/robots.txt> (referer: None)
    其中的robots.txt很耐人寻味,主要就是她的问题,在此不在深入解释,具体可参考这位大大的文章
    [爬虫出现Forbidden by robots.txt][1]
    [1]: http://blog.csdn.net/zzk1995/article/details/51628205

但是更改ROBOTSTXT_OBEYFalse后对爬虫以及其他有没有什么影响由于时间原因,暂时没有深入研究,有了解的大神可留言进行讨论~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容