urllib
urllib 是一个收集了多个涉及 URL 的模块的包:
urllib.request 打开和读取 URL
urllib.error 包含 urllib.request 抛出的异常
urllib.parse 用于解析 URL
urllib.robotparser 用于解析 robots.txt 文件
urllib.request
urllib.request 模块定义了适用于在各种复杂情况下打开 URL(主要为 HTTP)的函数和类 --- 例如基本认证、摘要认证、重定向、cookies 及其它。
函数和类等官方解读链接:
https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request
urllib.error
urllib.error 模块为 urllib.request 所引发的异常定义了异常类。 基础异常类是 URLError。
详细解读官方文档:
https://docs.python.org/zh-cn/3/library/urllib.error.html#module-urllib.error
urllib.parse
URL 解析,此模块定义了一个标准接口,用于将统一资源定位器(URL)字符串拆分为各部分(如:寻址方案、网络位置、路径等),并将各部分重新组合回URL字符串,并将“相对URL”转换为给定“基本URL”的绝对URL(to combine the components back into a URL string, and to convert a "relative URL" to an absolute URL given a "base URL.")
各函数接口官方解读链接:
https://docs.python.org/zh-cn/3/library/urllib.parse.html#module-urllib.parse
urllib.robotparser
此模块提供了一个单独的类 RobotFileParser,它可以回答关于某个特定用户代理是否能在 Web 站点获取发布 robots.txt 文件的 URL 的问题。 有关 robots.txt 文件结构的更多细节请参阅 http://www.robotstxt.org/orig.html。
官方详细介绍:
https://docs.python.org/zh-cn/3/library/urllib.robotparser.html#module-urllib.robotparser
PS:周旋了一圈,还是不了解爬虫的概念和应用,打算再看看视频和书籍打打基础。