HTTP全知道(上)

你所需要了解的关于http的一切

HTTP 报文结构

起始行 + 头部 + 空行 + 实体

  • 起始行
    请求报文格式是方法 + 路径 + http版本。
POST /home HTTP/1.1

返回报文格式起始行也叫做状态行,由http版本、状态码和原因三部分组成,
在起始行中,每两个部分之间用空格隔开,最后一个部分后面应该接一个换行。

HTTP/1.1 200 OK
  • 头部


    image.png
  • 空行
    用来区分开头部和实体。 如果说在头部中间故意加一个空行那么空行后的内容全部被视为实体。

  • 实体
    具体的数据了,也就是body。请求报文对应请求体, 响应报文对应响应体。

HTTP 的请求方法

常用的有:

  • GET: 通常用来获取资源
  • HEAD: 获取资源的元信息
  • POST: 提交数据,即上传数据
  • PUT: 修改数据
  • DELETE: 删除资源(几乎用不到)

  • POST和GET差异
    而后又有这样一些具体的差别:
  1. GET 请求会被浏览器缓存下来,留下历史记录,而 POST 默认不会。
  2. GET 只能进行 URL 编码,只能接收 ASCII 字符,而 POST 没有限制。
  3. GET 一般放在 URL 中,因此不安全,POST 放在请求体中,更适合传输隐私信息。
  4. GET 请求会把请求报文一次性发出去,而 POST 会分为两个 TCP 数据包,首先发 header 部分,如果服务器响应, 然后发 body 部分。

URI 结构

image.png
  • scheme 协议名,比如http, https, file等等。后必须连://。
  • user:passwd@ 表示登录主机时的用户信息,不常用。
  • host:port表示主机名和端口。http 和 https 的默认端口分别为80、443
  • path表示请求路径,标记资源所在位置。
  • query表示查询参数,为key=val形式,多个键值对之间用&隔开。
  • fragment表示 URI 所定位的资源内的一个锚点,浏览器可以根据这个锚点跳转到对应的位置。
    https://www.baidu.com/s?wd=HTTP&rsv_spt=123
    URI 中,https即scheme部分, www.baidu.com 为host:port部分(注意,),/s为path部分,而wd=HTTP&rsv_spt=1是query部分。

HTTP 状态码

RFC 规定 HTTP 的状态码为三位数,被分为五类:

1xx: 表示目前是协议处理的中间状态,还需要后续操作。在HTTP升级为WebSocket的时候,如果服务器同意变更,就会发送状态码 101。
2xx: 表示成功状态。

  • 200 OK是见得最多的成功状态码。通常在响应体中放有数据。
  • 204 No Content含义与 200 相同,但响应头后没有 body 数据。

3xx: 重定向状态,资源位置发生变动,需要重新请求。

  • 301 Moved Permanently即永久重定向,

  • 302 Found临时重定向。
    比如网站 升级到了 HTTPS 了,以前的站点再也不用了,应当返回301,浏览器默认会做缓存优化,在第二次访问的时候自动访问重定向的那个地址。
    而如果只是暂时不可用,那么直接返回302浏览器并不会做缓存优化。

  • 304 Not Modified: 当协商缓存命中时会返回这个状态码

4xx: 请求报文有误。

  • 400 Bad Request: 简单返回错误。
  • 403 Forbidden: 并不是请求报文出错,而是服务器禁止访问,比如法律禁止、信息敏感。
  • 404 Not Found: 资源未找到,表示没在服务器上找到相应的资源。
  • 405 Method Not Allowed: 请求方法不被服务器端允许。
  • 406 Not Acceptable: 资源无法满足客户端的条件。
  • 408 Request Timeout: 服务器等待了太长时间。
  • 409 Conflict: 多个请求发生了冲突。
  • 413 Request Entity Too Large: 请求体的数据过大。、
  • 414 Request-URI Too Long: 请求行里的 URI 太大。
  • 429 Too Many Request: 客户端发送的请求过多。
  • 431 Request Header Fields Too Large请求头的字段内容太大。

5xx: 服务器端发生错误。

  • 500 Internal Server Error: 服务器内部出错
  • 501 Not Implemented: 表示客户端请求的功能还不支持。
  • 502 Bad Gateway: 服务器自身是正常的,但访问的时候出错了,
  • 503 Service Unavailable: 表示服务器当前很忙,暂时无法响应服务。

HTTP 的特点

  • 灵活可扩展,主要体现在两个方面。一是语义上的自由,只规定了基本格式,其他的各个部分都没有严格的语法限制。另一个是传输形式的多样性,不仅仅可以传输文本,还能传输图片、视频等任意数据。
  • 可靠传输。HTTP 基于 TCP/IP,因此把这一特性继承了下来。
  • 请求-应答。也就是一发一收、有来有回,
  • 无状态。每次 http 请求都是独立、无关的,默认不需要保留状态信息。
    有些应用仅仅只是为了获取一些数据,不需要保存连接上下文信息,无状态减少了网络开销。

HTTP 缺点

  • 无状态
    在长连接的场景中,需要保存大量的上下文信息,以免传输大量重复的信息。
  • 明文传输
    协议里的报文(主要指的是头部)不使用二进制数据,而是文本形式。
    调用的便利缺使 HTTP 的报文信息暴露给了外界,给攻击者也提供了便利。
  • 队头阻塞
    当 http 开启长连接时,共用一个 TCP 连接,同一时刻只能处理一个请求,那么当前请求耗时过长的情况下,其它的请求只能处于阻塞状态

HTTP压缩方式

对数据进行编码压缩的,压缩方式就体现在了发送方的Content-Encoding字段上, 同样的,接收什么样的压缩方式体现在了接受方的Accept-Encoding字段上。

gzip: 当今最流行的压缩格式
deflate: 另外一种著名的压缩格式
br: 一种专门为 HTTP 发明的压缩算法

// 发送端
Content-Encoding: gzip
// 接收端
Accept-Encoding: gizp

HTTP字符集

在接收端对应为Accept-Charset,指定可以接受的字符集,而在发送端并没有对应的Content-Charset, 而是直接放在了Content-Type中,以charset属性指定。

// 发送端
Content-Type: text/html; charset=utf-8
// 接收端
Accept-Charset: charset=utf-8

HTTP 对于定长和不定长的数据传输的

  • 定长包体
    对于定长包体而言,发送端在传输的时候一般会带上 Content-Length, 来指明包体的长度。如果设置不当可以直接导致传输失败。
    就比如后端返回helloworld如果后端设置res.setHeader('Content-Length', 7)则前端只会收到hellowo超出7位则被截取了。
  • 不定长包体
    通过 http 头部字段Transfer-Encoding: chunked来表示分块传输数据,设置这个后Content-Length 字段会被忽略并且会基于长连接持续推送动态内容。返回格式如下。
chunk长度(16进制的数)
第一个chunk的内容
chunk长度(16进制的数)
第二个chunk的内容
......
0

HTTP 处理大文件传输

对于大文件来说,一次性全部传输显然是不现实的,会有大量的等待时间,严重影响用户体验。因此,HTTP 采取了范围请求来解决允许客户端仅仅请求一个资源的一部分。要支持这个功能,就必须加上这样一个响应头:Accept-Ranges: none来告知客户端这边是支持范围请求。

  • Range 字段拆解
    而对于客户端而言,它需要指定请求哪一部分,通过Range这个请求头字段确定,格式为bytes=x-y
    服务器收到请求之后,首先验证范围是否合法,如果越界了那么返回416错误码,否则读取相应片段,返回206状态码。
    同时,服务器需要添加Content-Range字段,这个字段的格式根据请求头中Range字段的不同而有所差异。
// 单段数据
Range: bytes=0-9
// 多段数据
Range: bytes=0-9, 30-39
  • 单段数据
    对于单段数据的请求,返回的响应如下:
HTTP/1.1 206 Partial Content
Content-Length: 10
Accept-Ranges: bytes
Content-Range: bytes 0-9/100

Content-Range字段,0-9表示请求的返回,100表示资源的总大小,很好理解。

  • 多段数据
    接下来我们看看多段请求的情况。得到的响应会是下面这个形式:
HTTP/1.1 206 Partial Content
Content-Type: multipart/byteranges; boundary=00000010101
Content-Length: 189
Connection: keep-alive
Accept-Ranges: bytes

--00000010101
Content-Type: text/plain
Content-Range: bytes 0-9/96

i am xxxxx
--00000010101
Content-Type: text/plain
Content-Range: bytes 20-29/96

eex jspy e
--00000010101--

Content-Type: multipart/byteranges;boundary=00000010101,它代表了信息量是这样的:

  1. 请求一定是多段数据请求
  2. 响应体中的分隔符是 00000010101

在响应体中各段数据之间会由这里指定的分隔符分开,而且在最后的分隔末尾添上--表示结束。

HTTP 中如何处理表单数据的提交?

在 http 中,有两种主要的表单提交的方式,体现在两种不同的Content-Type取值:

  • application/x-www-form-urlencoded
  1. 其中的数据会被编码成以&分隔的键值对
  2. 字符以URL编码方式编码。
// 转换过程 -> 如下(最终形式)
前: {a: 1, b: 2} -> a=1&b=2
后:"a%3D1%26b%3D2"
  • multipart/form-data
  1. 请求头中的Content-Type字段会包含boundary,且boundary的值有浏览器默认指定。例:Content-Type: multipart/form-data;boundary=----WebkitFormBoundaryRRJKeWfHPGrS4LKe
    数据会分为多个部分,每两个部分之间通过分隔符来分隔。

相应的请求体是下面这样:

Content-Disposition: form-data;name="data1";
Content-Type: text/plain
data1
----WebkitFormBoundaryRRJKeWfHPGrS4LKe
Content-Disposition: form-data;name="data2";
Content-Type: text/plain
data2
----WebkitFormBoundaryRRJKeWfHPGrS4LKe--
  1. 每一个表单元素都是独立的资源表述。在平时的调试中,可能并没有注意到其中还有boundary的存在,之所以在平时感觉不到,是以为浏览器和 HTTP 给你封装了这一系列操作。
  2. 在实际的场景中,对于图片等文件的上传,基本采用multipart/form-data而不用application/x-www-form-urlencoded,因为没有必要做 URL 编码,带来巨大耗时的同时也占用了更多的空间。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容

  • 本文是《图解HTTP》读书笔记的第二篇,主要包括此书的第六章内容,因为第六章的内容较多,而且比较重要,所以单独写为...
    lijiankun24阅读 1,361评论 0 6
  • Web 页面的实现 Web 基于 HTTP 协议通信 客户端(Client)的 Web 浏览器从 Web 服务器端...
    毛圈阅读 1,079评论 0 2
  • 作者:李成文;标签: http首部 HTTP报文首部 HTTP协议的请求和响应报文中必定包含HTTP首部。首部内容...
    广州芦苇科技web前端阅读 1,092评论 0 0
  • HTTP报文首部   HTTP协议的请求和响应报文中必定包含HTTP首部。首部内容为客户端和服务器分别处理请求和响...
    JarvanZ阅读 781评论 0 0
  • 拥挤的小床。 风格迥异的玩偶。 又是彻夜的长谈。 聊工作,聊男友,聊变化,聊成长……无所不谈的安静夜晚,记载着两个...
    尘年旧梦阅读 285评论 0 0