网站反爬虫

       爬虫和反爬虫作为相生相克的死对头,无论爬虫多厉害,都是能被复杂的反爬虫机制发现,同样的,无论反爬虫机制多么缜密,都是能被高级的网络爬虫所攻破,胜负的关键就看双方的资源投入多少了。

       一般网站从三个方面反爬虫:请求网站访问时的请求头Headers,用户行为,目标网站的目录和数据加载方式。更进一步的反制措施也不少。最主要的大概有:Cookie限制,验证码反爬虫,以及Noscript。

1.通过Headers反爬虫 (已经是废柴)

2.基于用户行为反爬虫

(静默检测?OR,主动识别下,session内不再检测?OR认为有异常服务端跳转到检测,屏蔽访问??其实都可以尝试)

如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。

逆向:1)使用代理ip。 2)降低请求频率。3)注册有多用户

3.其他参数加密 JS加密

逆向:八爪鱼、phantomJS 包浏览器的

4.字符加密(推荐):

原理,字库显示时,是根据内码到字库找相应的显示矢量图;我们复制一份字体文件,用fronteditor修改,变乱内码到矢量图的映射。如 001=我,换成077=我 ;我们整我这样一份映射表。在生成最终页面时,使用自己的字体(topnetfront 其实是常规字体的修改版),正文汉字根据映射表,作转换。存redis。浏览器加载显示时,会配合字体文件显示。看到的是正常的。

但是复制、看源码,都是颠倒的,甚至是乱码。导致爬取无效。

逆向:下载字体文件,统计分析,找到映射关系。

可以通过定期换字体版本,加大逆向难度。

参考网站:

http://www.cnblogs.com/zale-blogs/p/9223089.html

https://www.jianshu.com/p/5a626b3422ac

https://www.jianshu.com/p/0e2e1aa6d270

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 工欲善其事必先利其器知己知彼百战不殆 反反爬虫|应对网站反爬虫策略,更高效地爬大量数据 1.Headers限制 这...
    子非初心阅读 2,517评论 0 4
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,099评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,966评论 25 709
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 13,079评论 2 59
  • 今天有个同学在群里发了个图片,并表示自己看不懂: 有个热心的女同学给出了朱自清的《背影》作答。 这...
    疏影凡梅阅读 317评论 3 4