2.模块简介

其实学习爬虫也挺简单,主要就是三个步骤

1.抓取网页

2.分析网页
3.保存数据


抓取网页
urllib库
urllib库下主要分成四个模块
1.request 模拟发送请求
2.error 异常处理模块
3.parse 处理URL(拆分,解析,合并)
4.robotparser 识别robot.txt文件,判断网页是否可爬


request模块

  1. urlopen()方法(默认GET):
    常用参数列表:url,data(如果传递该参数,则用POST方法在表单中传递),timeout
  2. Request 构造复杂的请求对象
    常用参数列表:url,data,headers={ },请求方的host/IP,请求是否无法验证,method
    还可以用add_header()方法添加请求头
  3. 高级方法(涉及到验证,cookies,代理等问题)
    基本思路 创建对象 ——> 创建句柄(handler)——> 创建opener

error模块

  1. URLError
    所有异常类的基类,能够处理所有request模块产生的异常
    属性:reason
  2. HTTPError
    URLError的子类,专门用于处理HTTP请求错误
    属性:code reason headers

parse模块
urlparse() <——> urlunparse () 协议://域名/路径;参数?查询条件#锚点
urlsplit() <——> urlunsplit() 同上,不解析参数部分
urljoin()拼合两个url
urlencode() 接收字典参数,传递给url参数字段
parse_qs() 把GET请求参数转化为字典
parse_qsl() 把GET请求参数转化为元组的列表
quote() <——> unquote() 中文字符与url编码格式转化


robotparser模块
判断爬虫和搜索引擎哪些页面可抓取(不可抓取) robot.txt
RobotFileParser对象方法:
1.set_url() 也可在创建对象时初始化url
2.read() 读取robot.txt文件,必须调用
3.parse() 解析robot.txt文件
4.can_fetch() 参数:User-agent,url 是否可以抓取 True/False
5.mtime() 上次抓取和分析robot.txt的时间
6.modified() 更新抓取和分析robot.txt的时间

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,537评论 19 139
  • 爬虫的基本流程 一、发送HTTP请求(Request)通过Python库向目标站点发送HTTP请求,等待服务器响应...
    晓枫_0544阅读 845评论 0 0
  • https://www.cnblogs.com/xiao-apple36/p/8433400.html urlli...
    长风哥哥阅读 5,335评论 0 1
  • 学习一门技术,总是要踩好多坑,然后收货一大堆疑惑,这么多相似的方式该学哪个呢?外面公司常用的是哪个呢?就比如pyt...
    徐同学呀阅读 1,956评论 1 11
  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 10,080评论 0 6

友情链接更多精彩内容