爬虫练手：使用scrapy shell返回403错误的解决办法

今天练手爬取这个页面：https://book.douban.com/tag/%E7%BC%96%E7%A8%8B
的过程中，用scrapy shell测试xpath写得是否准确，没想到返回403错误，如下图所示：

图片.png

问了万能的百度，原来是豆瓣采取了反爬机制（当然对于scrapy shell也不例外），所以，只能在使用shell的时候也同样考虑一些“反-反爬”的办法。

当然，首先是要考虑设置user agent.如下图所示：

图片.png

终于可以了！

最后编辑于：2017.12.05 07:47:36

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

《Learning Scrapy》（中文版）第3章爬虫基础
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章...
SeanCheney阅读 15,260评论 13赞 61
python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分（1）首先介绍html网页，用来解析html网页的工具xpath（2）介绍pyt...
不忘初心c阅读 2,730评论 0赞 14

Scrapy爬虫入门教程一安装和基本使用
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
inke阅读 64,972评论 12赞 130
浑浑噩噩的混了好多年
带着父母的期望，一个人来到了现在这个地方。日语没学明白，钱也没挣到，活活浪费了自己太多的时间。转眼间大学要毕业了...
拉布拉多最爱卡尼阅读 412评论 0赞 0
郊南行记——云中的呼唤
就像是不动弹就浑身不自在似的，尽管这一天只剩下下半段了，我似乎是想了想，可当时那冲动劲儿轻而易举的把理智一拳头给打...
蟹老板的啤酒屋阅读 174评论 0赞 0

2赞3赞

赞赏

手机看全文