PYTHON支持两种不同的模块,分别为urlparse和urllib通过这两种模块开发web应用。
urlparse模块
此模块提供了操作RUL字符串的基本功能,这些功能包括urlparse、urlunparse、urljoin等函数。
urlparse.urlparse()
urlparse()将url字符拆分成如上所述一些主要部分,语法结构如下:
urlparse(urlstr, defportsch=none, allowfrag=none)
urlparse将urlstr解析成一个6元组(prot_sch协议或下载规则、net_loc服务器位置、path应用路径、parmas可选参数、query连接字符、frag拆分文档中的特殊锚)
其中net_loc可以进一步拆分成user用户、password密码、host服务器域名或地址、port端口
urllib模块
urllib主要保含urlopen、urlretrieve、quote、unquote、quote_plus、unquote_plus()、urlencode()
urllib.urlopen(urlstr,postQueryData=None) # 打开一个连接或一个本地文件
urlopen()对象支持的方法如下:f.read()、分。readline()、f.close()、f.fileno()、f.info()、f.geturl()
urllib.urlretrieve()下载url指定页面,如果本地地以存在则不进行任何操作。
urllib.urlretrieve的调用方法如下:
urllib.urlretrieve(filename,mime_hdrs) filename是要下载的文件名,mime_hdrs是对web服务器相应返回的一系列mime文件头,本地文件的mime_hdrs指为空。
urllib.quote和urllib.quote-plus
quote*()函数获取url数据,并将其编码,从而适用与url字符串中尤其是那些不能被打印的字符或者不被web服务器作为有效url接受的特殊字符串,必须被转换。
语法如下:
quote(urldata,safe='/') safe参数指定不被转化的内容
使用效果如图:
通过urllib.unquote()及urllib.unquote_plus()进行解码,具体语法如下:
unquote×(urldata)