urllib的用法

Urllib库是Python中的一个功能强大、用于操作URL，并在做爬虫的时候经常要用到的库。在Python2.x中，分为Urllib库和Urllin2库，Python3.x之后都合并到Urllib库中，使用方法稍有不同。本文介绍的是Python3中的urllib库。

什么是Urllib库

Urllib是Python提供的一个用于操作URL的模块，我们爬取网页的时候，经常需要用到这个库。

升级合并后，模块中的包的位置变化的地方较多。在此，列举一些常见的位置变动，方便之前用Python2.x的朋友在使用Python3.x的时候可以快速掌握。

常见的变化有：

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。
在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse。
在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse。
在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen。
在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode。
在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote。
在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar。
在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request。

快速使用Urllib爬取网页

以上我们对Urllib库做了简单的介绍，接下来讲解如何使用Urllib快速爬取一个网页。
首先需要导入用到的模块：urllib.request
import urllib.request

在导入了模块之后，我们需要使用urllib.request.urlopen打开并爬取一个网页，此时，可以输入如下代码爬取百度首页(www.baidu.com)，爬取后，将爬取的网页赋给了变量file：

file=urllib.request.urlopen('www.baidu.com')

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

urllib的用法

urllib的用法

相关阅读更多精彩内容

友情链接更多精彩内容