http和https理解

HTTP和HTTPS的复习

目标

掌握http和https的概念

掌握HTTP的请求过程

掌握HTTP的请求形式

掌握HTTP的常见请求头

掌握GET和POST的区别

了解响应状态码

1. 为什么要复习http和https

2. http和https的概念(掌握)

HTTP

超文本传输协议

默认端口号:80

HTTPS

HTTP + SSL(安全套接字层)

默认端口号:443

HTTPS比HTTP更安全,但是性能更低

3. 浏览器发送HTTP请求的过程(重点理解)

浏览器会主动请求js,css等内容,js会修改页面的内容,js也可以重新发送请求,最后浏览器渲染出来的内容在elements中,其中包含css,图片,js,url地址对应的响应等。

但是在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应

浏览器渲染出来的页面和爬虫请求的页面并不一样

所以在爬虫中,需要以url地址对应的响应为准来进行数据的提取

4. url的形式

url的形式:scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme:协议(例如:http, https, ftp)

host:服务器的IP地址或者域名

port:服务器的端口(如果是走协议默认端口,80 or 443)

path:访问资源的路径

query-string:参数,发送给http服务器的数据

anchor:锚(跳转到网页的指定锚点位置)

http://localhost:4000/file/part01/1.2.html

http://item.jd.com/11936238.html#product-detail

url地址中是否包含锚点对响应没有影响

5. HTTP请求的形式

这个图大家见过很多次,那么在浏览器headers中,点击view source来具体观察其中的请求行,请求头部和请求数据是什么样子的

6. HTTP常见请求头

Host (主机和端口号)

Connection (链接类型)

Upgrade-Insecure-Requests (升级为HTTPS请求)

User-Agent (浏览器名称)

Accept (传输文件类型)

Referer (页面跳转处)

Accept-Encoding(文件编解码格式)

Cookie (Cookie)

x-requested-with :XMLHttpRequest (是Ajax 异步请求)

7.常见的请求方法

GET

POST

get请求和post请求的区别可以参w3school

8.响应状态码(status code)

常见的状态码:

200:成功

302:临时转移至新的url

307:临时转移至新的url

404:not found

500:服务器内部错误

小结

本小结重点

理解爬虫获取的数据和浏览器获取的数据不一样

掌握HTTP的常见请求头

了解GET和POST的区别

掌握http和https的区别

了解常见的响应状态码

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • http协议有http0.9,http1.0,http1.1和http2三个版本,但是现在浏览器使用的是htt...
    一现_阅读 1,926评论 0 3
  • 浏览器访问服务器的过程、HTTP协议、开发者工具、HTTP请求报文协议分析、HTTP响应报文协议分析、长连接和短连...
    Cestine阅读 1,221评论 0 3
  • 爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...
    小皇帝s阅读 714评论 0 1
  • HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML...
    彡廿阅读 703评论 0 1
  • 六丰商城提示:三月春暖花开,单纯的以为这是个春游的季节,但是没想到的是一大波花粉和粉尘正在袭来,新一年的过...
    nongyedianshang阅读 340评论 0 0