爬虫urllib高级用法

Handler处理器 和 自定义opener

* opener是urllib.OpenerDirector 的实例,之前使用的urlopen,也是一个特殊的opener(是代码程序自带的)
* 但**urlopen()方法不支持代理、cookie**及其它高级功能:
    i. **使用相关的Handler处理器来创建特定功能的处理器对象**
    ii. **然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建一个自定义opener对象**
    iii. **使用自定义的opener对象,调用open()方法发送请求**
* 如果程序中的多有请求都是使用的自己定义的opener,可以使用**urllib.request.install_opener()**将定义的opener定义为**全局的opener**让凡是调用urlopen,都使用这个opener(定义的opener要符合自己的使用需求)

urllib之代理设置

什么是代理:代理就是代理服务器
功能:网络信息的中转站,就好像中间商一样,原本是直接找房主详谈的,但现在是和房产中介谈一样,在中间有个桥连接两方
基本原理:本来服务器收到的请求是我们本机真实IP但设置了代理之后,服务器无法识别我们的本机真实IP

image.png

代理的作用:
1.突破自身的IP访问限制
2.范文一些单位或团体内部资源
3.提高访问速度
4.隐藏真实IP

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容