反爬虫问题

反爬虫的方式

1、不返回网页,如不返回内容和延迟网页返回时间
2、返回数据非目标网页,如返回错误页、返回空白页和爬取多页时,均返回同一页
3、增加获取数据的难度,如登陆才可查看和登陆时设置验证码

如何反反爬虫

1、修改请求头

import requests
r = requests.get('http://www.santostang.com')
print(r.request.headers)

获得的结果放到爬虫脚本的请求头headers中。
2、修改爬虫的间隔时间
爬虫运行的太过密集,设置一个时间间隔

import time
t1 = time.time()
time.sleep(2)
t2 =time.time()
total_time= t2-t1
print(total_time)

3、使用代理
代理是一种特殊的网络服务,允许一个网络终端,通过这个服务与另一个网络终端进行非直接的链接。
我们可以维护一个自己的IP池,从而让爬虫程序隐藏自己的真实IP。但是代理IP池维护起来很麻烦,而且十分不稳定。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,526评论 25 709
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 14,480评论 2 59
  • 有时候我们想为多个函数,同意添加某一种功能,比如及时统计,记录日志,缓存运算结果等等,而又不想改变函数代码那就定义...
    ketchup阅读 8,170评论 0 3
  • 你只有一条路,进行高强度工作!精力集中解决任务!赶早!
    静心舞瑜阅读 702评论 0 0
  • 一直都有些排斥励志演讲,感恩教育。 不习惯被别人拉着上进,赶着流泪。 早上听到崔万志要来做演讲。 很是熟悉的名字,...
    段小样阅读 1,631评论 0 0