robots协议-----君子协定
简单防范--------增加headers/cookie(Referer/User-Agent)
陷阱(一个不可见连接,但是人不会点的)-------??
投毒(假数据)-------------- ??
封ip---------代理
复杂动态js生成-------模拟js运行selenium,分析
验证码图像--------图片识别,AI,无解, 打码平台
短信验证码--------猫池
字体的变化--------分析
基于用户行为分析(看了1w页但是不买东西)---??
记录反爬虫的手段和应对
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 写在前面 爬虫是 Python 的一个常见应用场景,很多练习项目就是让大家去爬某某网站爬取网页的时候,你大概率会碰...
- 前言:爬虫本身会对网站增加一定的压力,所以也应该合理设定爬取速率,尽量避免对目标网站造成麻烦,影响网站正常使用,一...
- 前言 到目前为止我们已经写了好几个爬虫,虽然已经可以实现数据采集,但是我们的爬虫其实是在”裸奔”,因为没有加任何的...