爬虫的主要内容

爬虫的主要内容


requests

  • 发送请求
  • 传递url参数
  • 读取相应内容
  • 定制请求头部
  • Post请求
  • 响应状态码
  • 重定向和历史
  • 超时

获取url

import requests
 url = 'http://www.baidu.com'
r= requests.get(url)
 print(r)
<Response [200]>
print(r.text)
<meta http-equiv="refresh" content="0; url = https://www.baidu.com/?tn=95589872_hao_pg&ch=10"/> 

传递参数

params={'k1':'v1','k2':'v2'}
r=requests.get('http://httpbin.org/get',params)
print(r.url)
http://httpbin.org/get?k1=v1&k2=v2

处理二进制内容

from io import BytesIO

处理图片

from PIL import Image

image = Image.open(BytesIO(r.content)#将图片转换成二进制文件

json处理

r =requests.get('https://github.com/timeline.json')

提交表单

form = {'username':'user','password':'pass'}
r= r.requests.post('http://www.org/post',data=form)
print(r.text)

cookie

url ='http//ww.baidu.com'
r=requests.get(url)
cookies=r.cookies
for k,v in cookies.get_dict().items():  #取出COOKIE并遍历
    print(k,v)

重定向和重定向历史
主要用于尊重

r=requests.head('http://github.com',allow_redirects=True)
print(r.url)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Getting Started Burp Suite 是用于攻击web 应用程序的集成平台。它包含了许多工具,并为...
    Eva_chenx阅读 29,217评论 0 14
  • 爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...
    小皇帝s阅读 732评论 0 1
  • 上一篇:8.Urllib库基本使用下一篇:10.正则表达式基础 requests是python实现的最简单易用的H...
    在努力中阅读 3,579评论 2 11
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,263评论 2 26
  • Requests快速上手 迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引。其假设你已经安装了...
    小娟_bb93阅读 1,527评论 0 3

友情链接更多精彩内容