反爬虫记

没有反爬

   各大新闻网站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所见即时所得,都是静态加载,唯一的突破点是要梳理不同网站的清洗规则。

有一点点反爬

麻烦一点的反爬

  • ip限制
      针对不用登陆的网站,可能会对IP进行访问频率限制,具体网站限制不同,要较长的时间研究网站规则 ,常见出现大量非200 404错误可能就是被IP限制了。
  • 工程验证码中级
    http://dun.163.com/trial/jigsaw拖拉式验证码,有拖拉到指定缺口,拖拉到尽头两种,一般伴随着浏览器驱动检测,所以还需要注入js把检测模块处理掉。
  • 字体css反爬
    https://maoyan.com/cinemas?movieId=1218141
    image.png

    需要下载一个字体模板作为对比,然后这个网站可以打开otf格式的文件浏览http://fontstore.baidu.com/static/editor/index.html
    image.png

    通过对比方式找到对应数字的代码

比较麻烦的反爬

  • 收发短信认证


    image.png

    一般注册普通小网站的或可以选择免费的接码平台,像大站的手机验证只能实人验证,操作比较麻烦。

  • 语义点选
    http://dun.163.com/trial/picture-click
    image.png

    大概的处理流程是标注、训练、编码,工程量大,而且工作只有思想可以复制,网站更换套件又得重新处理一遍流程。

反人类的反爬

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容