python标准库模块之urllib

urllib

urllib 是一个收集了多个涉及 URL 的模块的包：

urllib.request 打开和读取 URL

urllib.error 包含 urllib.request 抛出的异常

urllib.parse 用于解析 URL

urllib.robotparser 用于解析 robots.txt 文件

urllib.request

urllib.request 模块定义了适用于在各种复杂情况下打开 URL（主要为 HTTP）的函数和类 --- 例如基本认证、摘要认证、重定向、cookies 及其它。

函数和类等官方解读链接：

https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request

urllib.error

urllib.error 模块为 urllib.request 所引发的异常定义了异常类。基础异常类是 URLError。

详细解读官方文档：

https://docs.python.org/zh-cn/3/library/urllib.error.html#module-urllib.error

urllib.parse

URL 解析，此模块定义了一个标准接口，用于将统一资源定位器（URL）字符串拆分为各部分（如：寻址方案、网络位置、路径等），并将各部分重新组合回URL字符串，并将“相对URL”转换为给定“基本URL”的绝对URL（to combine the components back into a URL string, and to convert a "relative URL" to an absolute URL given a "base URL."）

各函数接口官方解读链接：

https://docs.python.org/zh-cn/3/library/urllib.parse.html#module-urllib.parse

urllib.robotparser

此模块提供了一个单独的类 RobotFileParser，它可以回答关于某个特定用户代理是否能在 Web 站点获取发布 robots.txt 文件的 URL 的问题。有关 robots.txt 文件结构的更多细节请参阅 http://www.robotstxt.org/orig.html。

官方详细介绍：

https://docs.python.org/zh-cn/3/library/urllib.robotparser.html#module-urllib.robotparser

PS：周旋了一圈，还是不了解爬虫的概念和应用，打算再看看视频和书籍打打基础。

最后编辑于：2021.01.30 22:26:06

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python标准库模块之urllib

python标准库模块之urllib

urllib

urllib.request

urllib.error

urllib.parse

urllib.robotparser

相关阅读更多精彩内容

友情链接更多精彩内容