urllib模块的使用

在Python3.3之后的版本，urllib2库现在可以用import urllib.request的方法引用。
import urllib.request

url =r'http://www.baidu.com'
#编码
newUrl1 = urllib.request.quote(url)
print(newUrl1)
#解码
newUrl2 = urllib.request.unquote(url)
print(newUrl2)


#向指定的url发起请求，并返回服务器响应的数据（文件的对象）
response = urllib.request.urlopen(url)

#data = response.read()

#data = response.readline()        #三种读取数据的方式

data = response.readlines()

#一步把爬取的文件写到本地
urllib.request.urlretrieve('http://www.baidu.com', filename=r'C:\Users\Administrator\AppData\Local\Programs\Python\Python37\file.html')
#urlretrieve在执行过程中会产生缓存，用久了会影响性能，需要清除缓存
urllib.request.urlcleanup()

print(data)

'''
1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

-         url:  需要打开的网址

-         data：Post提交的数据

-         timeout：设置网站的访问超时时间

直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，需要decode（）解码，转换成str类型。
urlopen返回对象提供方法：
-         read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作
-         info()：返回HTTPMessage对象，表示远程服务器返回的头信息
-         getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到
-         geturl()：返回请求的url

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

使用request（）来包装请求，再通过urlopen（）获取页面。

用来包装头部的数据：
-         User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言
-         Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的
-         Connection：表示连接状态，记录Session的状态。

3.Post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urlopen（）的data参数默认为None，当data参数不为空的时候，urlopen（）提交方式为Post。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

urlencode（）主要作用就是将url附上要提交的数据。 

总结：

如果只是单纯的下载或者显示下载进度，不对下载后的内容做处理等，比如下载图片，css，js文件等，可以用urlilb.urlretrieve（）
如果是下载的请求需要填写表单，输入账号，密码等，建议用urllib2.urlopen(urllib2.Request())
在对字典数据编码时候，用到的是urllib.urlencode()
具体代码和方法：
http://www.cnblogs.com/Lands-ljk/p/5447127.html

'''
urllib模块的使用

推荐阅读更多精彩内容