爬虫基础库

Screen Shot 2018-07-11 at 9.22.53 AM.png

概要

介绍下requests和BeautifulSoup两个库的基本使用

具体内容

  • requests
    requests是一个模拟浏览器发送请求的库
    • methods
      具体的http请求类型:
      GET对应 requests.get()
      POST对应 requests.post()
    • url
      对应的http请求地址
      url = 'http://www.cnblogs.com/wupeiqi/p/9078770.html'
      requests.get(url=url)
    • header
      http请求的请求头
      header = {'Content-Type': 'image/jpeg'}
      requests.get(url=url, header=header)
    • cookie
      http请求的缓存
      cookie = {'_gid': 'GA1.2.1083957064.1531274683'}
      requests.get(url=url, cookie=cookie)
    • 上传文件
      file = {''file'': open('report.xls', 'rb')}
      requests.get(url=url, file=file)
  • BeautifulSoup
    BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库
    • 初始化
      soup = BeautifulSoup(请求返回的html文本,'html.parser')
    • find
      找到上一篇、下一篇的div标签
      soup.find(name = 'div', id = 'post_next_prev')
    • find_all
      查询所有的a标签soup.find_all('a')
    • get
      获取div标签里面的链接
      soup.get('href')
      图片链接
      soup.get('src')

相关文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,819评论 6 28
  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 9,968评论 0 6
  • urllib库urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请...
    MononokeHime阅读 166评论 0 0
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,082评论 19 139
  • 今天爸爸从新疆回来了,这次在新疆看到大伯的生活安安稳稳,家人都亲亲热热,日子过得有条不紊,我们都很为大伯高兴。 其...
    罗洪绮阅读 170评论 0 2