python3的爬虫笔记5——代理IP和时间设置、异常处理

对于反爬虫机制的处理,除了笔记2中伪造浏览器的方法,还可以使用代理IP和时间设置

一、代理IP

适用情况:限制IP地址情况,也可解决由于“频繁点击”而需要输入验证码登陆的情况。
这种情况最好的办法就是维护一个代理IP池,网上有很多免费的代理IP,良莠不齐,可以通过筛选找到能用的。对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。
这里推荐几个IP免费代理的网站:
(1) http://www.xicidaili.com/
(2) http://haoip.cc/tiqu.htm
对于requests方法:

import requests
#ip地址:端口号
proxies = {'http' : 'http://XX.XX.XX.XX:XXXX'}
#或者
proxies = {'http' : 'XX.XX.XX.XX:XXXX'}
response = requests.get(url=url, proxies=proxies)

我们实际应用下,用站长之家的查ip工具,看看实际ip到底有没有进行修改。

import requests
#一个能够查当前ip的网站
url = 'http://ip.chinaz.com/'
#用proxies字典保存代理ip
proxies = {'http' : '218.86.128.100:8118'}
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.103 Safari/537.36', 'Connection':'keep-alive'}
response = requests.get(url=url, proxies=proxies,headers=headers)
response.encoding = 'utf-8'
html = response.text
print(html)

对于urllib方法:

import urllib.request
#ip地址:端口号
proxies = {'http' : 'http://XX.XX.XX.XX:XXXX'}
#或者
proxies = {'http' : 'XX.XX.XX.XX:XXXX'}
proxy_support = urllib.request.ProxyHandler(proxies)
opener = urllib.request.build_opener(proxy_support)
# 安装opener,此后调用urlopen()时都会使用安装过的opener对象
urllib.request.install_opener(opener) 
response = urllib.request.urlopen(url)
import urllib.request
url = 'http://ip.chinaz.com/'
proxies = {'http' : '218.86.128.100:8118'}
proxy_support = urllib.request.ProxyHandler(proxies)
#创建opener
opener = urllib.request.build_opener(proxy_support)
# 安装opener,此后调用urlopen()时都会使用安装过的opener对象
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
print(html)

我们可以看到,再返回的html中,我们的ip已经发生了改变。

如果能多个ip随机切换的话,我们爬虫的强壮程度会更高,接下来简单说说随机切换ip。

import random
#把我们从ip代理网站上得到的ip,用ip地址:端口号的格式存入iplist数组
iplist = ['XXX.XXX.XXX.XXX:XXXX', 'XXX.XXX.XXX.XXX:XXXX']
proxies ={'http': random.choice(iplist)}
二、时间设置

适用情况:限制频率情况。
Requests,Urllib都可以使用time库的sleep()函数:

import time
time.sleep(1)#单位:秒
三、Timeout

timeout的设置,可以设置等待多久超时,为了解决一些网站实在响应过慢而造成的影响。

import requests
response =  requests.get(url, timeout=10)
import urllib.request
response =  urllib.request.urlopen(url, timeout=10)
四、异常处理

requests的官方文档我们看到:


简单地写个异常处理:

from requests.exceptions import RequestException
try:
    XXXXX
except RequestException as e:
    print('爬虫错误,错误原因:',e)

参考:
https://github.com/lining0806/PythonSpiderNotes

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,106评论 45 523
  • Python版本管理:pyenv和pyenv-virtualenvScrapy爬虫入门教程一 安装和基本使用Scr...
    inke阅读 60,652评论 6 99
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,948评论 18 139
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,512评论 0 17
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,482评论 0 6