常用的爬虫模块及使用方法
python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。他们两个最显着的差异如下:
urllib2可以接受一个Reques对象,并以此可以来设置一个URL的headers,但是urllib只接收一个URL。这意味着,你不能伪装你的用户代理字符串等。
urllib模块可以提供进行urlencode的方法,该方法用于GET查询字符串的生成,urllib2的不具有这样的功能。这就是urllib与urllib2经常在一起使用的原因。
常用的方法
1 urllib2.urlopen(url[, data][, timeout])
urlopen方法是urllib2模块最常用也是最简单的方法,它打开URL网址,url参数可以是一个字符串url或者是一个Request对象。URL没什么可说的,Reques对象和data在reques类中说明,定义都是一样的。