登录注册写文章

爬虫基础库

蜡笔小姜和畅畅

爬虫基础库

Screen Shot 2018-07-11 at 9.22.53 AM.png

概要

介绍下requests和BeautifulSoup两个库的基本使用

具体内容

requests
requests是一个模拟浏览器发送请求的库
- methods
  具体的http请求类型：
  GET对应 requests.get()
  POST对应 requests.post()
- url
  对应的http请求地址
  url = 'http://www.cnblogs.com/wupeiqi/p/9078770.html'
  requests.get(url=url)
- header
  http请求的请求头
  header = {'Content-Type': 'image/jpeg'}
  requests.get(url=url, header=header)
- cookie
  http请求的缓存
  cookie = {'_gid': 'GA1.2.1083957064.1531274683'}
  requests.get(url=url, cookie=cookie)
- 上传文件
  file = {''file'': open('report.xls', 'rb')}
  requests.get(url=url, file=file)
BeautifulSoup
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库
- 初始化
  soup = BeautifulSoup(请求返回的html文本,'html.parser')
- find
  找到上一篇、下一篇的div标签
  soup.find(name = 'div', id = 'post_next_prev')
- find_all
  查询所有的a标签soup.find_all('a')
- get
  获取div标签里面的链接
  soup.get('href')
  图片链接
  soup.get('src')

相关文档

最后编辑于：2018.07.11 16:54:49

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 12,819评论 6赞 28
Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 9,968评论 0赞 6
1.爬虫基础库之urllib
urllib库urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请...
MononokeHime阅读 166评论 0赞 0
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,082评论 19赞 139
20180407
今天爸爸从新疆回来了，这次在新疆看到大伯的生活安安稳稳，家人都亲亲热热，日子过得有条不紊，我们都很为大伯高兴。其...
罗洪绮阅读 170评论 0赞 2

赞1赞

赞赏

手机看全文