2.模块简介

其实学习爬虫也挺简单，主要就是三个步骤

1.抓取网页

2.分析网页
3.保存数据

抓取网页
urllib库
urllib库下主要分成四个模块
1.request 模拟发送请求
2.error 异常处理模块
3.parse 处理URL（拆分，解析，合并）
4.robotparser 识别robot.txt文件，判断网页是否可爬

request模块

urlopen（）方法（默认GET）：
常用参数列表：url，data（如果传递该参数，则用POST方法在表单中传递），timeout
Request 构造复杂的请求对象
常用参数列表：url，data，headers={ }，请求方的host/IP，请求是否无法验证，method
还可以用add_header()方法添加请求头
高级方法（涉及到验证，cookies，代理等问题）
基本思路创建对象 ——> 创建句柄（handler）——> 创建opener

error模块

URLError
所有异常类的基类，能够处理所有request模块产生的异常
属性：reason
HTTPError
URLError的子类，专门用于处理HTTP请求错误
属性：code reason headers

parse模块
urlparse() <——> urlunparse () 协议://域名/路径；参数？查询条件#锚点
urlsplit() <——> urlunsplit() 同上，不解析参数部分
urljoin（）拼合两个url
urlencode（）接收字典参数，传递给url参数字段
parse_qs() 把GET请求参数转化为字典
parse_qsl（）把GET请求参数转化为元组的列表
quote（） <——> unquote() 中文字符与url编码格式转化

robotparser模块
判断爬虫和搜索引擎哪些页面可抓取（不可抓取） robot.txt
RobotFileParser对象方法：
1.set_url() 也可在创建对象时初始化url
2.read() 读取robot.txt文件，必须调用
3.parse() 解析robot.txt文件
4.can_fetch() 参数：User-agent,url 是否可以抓取 True/False
5.mtime() 上次抓取和分析robot.txt的时间
6.modified（）更新抓取和分析robot.txt的时间

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2.模块简介

2.模块简介

其实学习爬虫也挺简单，主要就是三个步骤

1.抓取网页

相关阅读更多精彩内容

友情链接更多精彩内容