登录注册写文章

scrapy写爬虫时候的错误和问题总结

scrapy写爬虫时候的错误和问题总结

请求的时候没有返回response
结论：更改settings.py中的ROBOTSTXT_OBEY为False
爬取的时候，发现response为 None，本来以为是该页面做了保密机制，以及一些防爬虫的机制，所以之后伪装成浏览器，发现也不可以，查了一些资料，发现问题所在在robots.txt
在scrapy shell中调试发现这一行
2017-01-17 11:55:02 [scrapy] DEBUG: Crawled (200) <GET http://xxx.com/robots.txt> (referer: None)
其中的robots.txt很耐人寻味，主要就是她的问题，在此不在深入解释，具体可参考这位大大的文章
[爬虫出现Forbidden by robots.txt][1]
[1]: http://blog.csdn.net/zzk1995/article/details/51628205

但是更改ROBOTSTXT_OBEY为False后对爬虫以及其他有没有什么影响由于时间原因，暂时没有深入研究，有了解的大神可留言进行讨论~

最后编辑于：2017.12.05 06:47:59

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Scrapy爬虫入门教程十三 Settings（设置）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
inke阅读 63,584评论 6赞 99
scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 13,099评论 4赞 46

网络爬虫Scrapy从入门到进阶
Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
treelake阅读 52,117评论 8赞 111
故事从大Boss开始跑路开始了.......
（一）一个国华证券董事长大boss利用加盟的方式，打算卷款5亿多元跑路！在瑞士开设2个户头，有2个身份证，2本护...
15bfb52fbe04阅读 462评论 0赞 0
苍山洱海，我遇见了生命中的她
文｜洛子帅 “是不是对生活不太满意，很久没有笑过又不知为何，既然不快乐又不喜欢这里，不如一路向西去大理。” 三哥像...
洛子帅阅读 2,604评论 43赞 52

友情链接更多精彩内容

赞1赞

赞赏

手机看全文