scrapy微信文章爬虫,加入中间件代理池

微信文章查询这个网站布局相对简单,提取信息不难,但是反爬比较厉害,分分钟ban掉你IP没话说,今天写了个scrapy中间件,github地址是:
https://github.com/xiaobeibei26/weixin_spider
先看这个网站


很多信息直接在源代码里面
接着,看看我们的大杀器中间件,主要是加入了代理池和user-agent,首先看看文件的结构

Paste_Image.png

这里看看中间件的代码,很短的,如图


Paste_Image.png

封装的数据库代理池代码也很短

Paste_Image.png

这里你可以自己添加ip进去,也可以链接自己数据库的IP池,这次我自己数据库的IP数量很少,而且这个网站貌似识别能力很高,一般的代理搞不掂
然后记得在settings里面调用这个中间件,很简单,如图

Paste_Image.png

最后楼主就爬了几页数据,很多代理我之前测试都没有问题,访问这个网站就不行了,看来要大规模爬虫,对于代理的质量有非常高的要求啊,如图这是运行结果

Paste_Image.png
Paste_Image.png

看来只能等以后把代理池扩充一下再爬了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,138评论 25 709
  • 从三月份找实习到现在,面了一些公司,挂了不少,但最终还是拿到小米、百度、阿里、京东、新浪、CVTE、乐视家的研发岗...
    时芥蓝阅读 42,395评论 11 349
  • 一.Activity的转场动画 1.overridePendingTransition(enterAnim, ex...
    Lz_Docker阅读 1,288评论 0 2
  • 今又重阳 ,喜迎第五个“老年节” ,慢游江岸,秋叶、夕阳,花果呈现,美不胜收,喜之留存。
    陡山湾阅读 265评论 0 0
  • 小花印白瓷, 木芄绕青次。 却是一声痴, 何来久遗香。
    0847eb295d45阅读 207评论 1 2