HTTP概述、HTTP缓存

3月18日周一 HTTP概述

·HTTP是一种能够获取如HTML这样的网络资源的通讯协议，是Web上进行数据交换的基础，是一个CS协议。请求通常是由像浏览器这样的接受方发起。

·web文档——>网络——>服务器

·客户端：如浏览器，发出requests 服务端：响应responses。

·HTTP是应用层协议，通过TCP或者TLS（Transport Layer Security 加密的TCP）来发送。理论上任何可靠的传输协议都可以使用、具备良好的拓展性。

·代理Proxies：在浏览器和服务器之间，有许多计算机和其他设备转发了HTTP消息，大多在传输层、网络层和物理层，而有一部分是表现在应用层上，即代理。有如下作用：缓存、过滤、负载均衡（让多个服务器服务不同的请求）、认证（对不同资源进行权限管理）、日志记录

3月19日周二 HTTP概述

·HTTP基本性质：

简单：HTTP报文能够被人读懂，允许简单测试，虽然HTTP/2协议将HTTP消息封装到了帧

可拓展：HTTP/1.0中出现的HTTP headers。只要服务端和客户端就新headers达成语义一致就能加入新功能

无状态、有会话：在同一个连接中两个执行成功的请求之间没有关系，使用HTTP的头部拓展，HTTP Cookies可以解决这个问题。把Cookies添加到头部中创建一个会话让每个请求都能共享相同的上下文信息，达成相同的状态。HTTP本质是无状态的，使用Cookies可以创建有状态的会话。

HTTP和连接：

一个连接是由传输层来控制的（HTTP是应用层协议），不属于HTTP范围。HTTP并不需要其底层的传输层协议是面向连接的，只需要它的可靠或不丢失消息（至少返回错误）。两个常用的传输层协议：TCP可靠，UDP不是。因此，HTTP依赖于面向连接的TCP进行消息传递，但连接并不是必须的。

HTTP/1.0为每一个请求/响应都打开一个TCP连接，导致2个缺点：打开一个TCP连接需要多次往返消息传递，因此速度慢。但当多个消息周期性发送时，这样就变得更加高效：暖连接比冷连接更高效。

为减轻以上缺陷，HTTP/1.1引入了流水线（被证明难以实现）和持久连接的概念：底层的TCP连接可以通过Connection头部来被部分控制。HTTP/2则通过在一个连接复用消息的方式来让这个连接始终保持为暖连接。

设计一种更好传输协议的进程一直在进行，Google研发了一种以UDP为基础，能提供·更可靠更高效的传输协议QUIC。

3月20日周三 HTTP概述

·被HTTP控制的常见特性：

缓存：

服务端能告诉代理和客户端哪些文档需要被缓存，缓存多久，客户端也能命令中间的缓存代理来忽略储存的文档。

开放同源限制：

为了防止网络窥听和其他隐私泄漏，浏览器强制对Web网络做了分割限制，只有来自于相同来源的网页才能够获取网站的全部信息。这样的限制有时反而成了负担，HTTP可以通过修改头部来开放这种限制，因此Web文档可以由不同域下的信息拼接成的（某些情况下，这样做还有安全因素考虑）

认证：

一些页面能够被保护起来，仅让特定的用户进行访问。基本的认证功能可以通过HTTP提供，使用Authenticate相似的头部即可或用HTTP Cookies来设置指定的会话。

代理和隧道：

通常情况下，服务器或客户端处于内网，对外网隐藏真实IP地址，HTTP请求就要通过代理越过这个网络屏障。但并非所有的代理都是HTTP代理，比如SOCKS协议的代理就运作在更底层，一些像FTP这样的协议也能够被它们处理。

会话：

使用HTTP Cookies可以用一个服务端的状态发起请求，创建会话。虽然HTTP是无状态协议，但这使得任何网站都能轻松为用户定制展示内容。

3月21日周四 HTTP概述

·HTTP流

当客户端想要和服务端（指最终服务器或者一个中间代理）进行信息交互时，过程如下：

1.打开一个TCP连接：TCP连接被用来发送一条或多条请求以及接受响应消息。客户端能打开一条连接/重用一个已经存在的连接/开几个新的TCP连接连向服务端。

2.发送一个HTTP报文：HTTP/2之前HTTP报文语义可读，HTTP/2中这些简单的消息被封装在了帧中不能被直接读取。

3.读取服务端返回的报文信息

4.关闭连接或者为后续请求重用连接

HTTP流水线：后续请求都可以不用等待第一个请求的成功响应就被发送。很难实现，因为现有网络中有很多老旧的软件与现代版本的软件共存。因此，HTTP流水线已被在有多请求下表现的更稳健的HTTP/2的帧所取代。

·HTTP报文

HTTP/2中HTTP报文被嵌入到了一个新的二进制结构——帧。帧允许实现很多优化，比如报文头部的压缩和复用。即使只有原始HTTP报文的一部分以HTTP/2发送出来，每条报文的语义依旧不变，客户端会重组原始HTTP/1.1请求，因此用HTTP/1.1格式来理解HTTP/2报文依旧OK。

HTTP报文有两种类型：

1.请求

a.Method: GET/POST/OPTIONS/HEAD定义客户端动作行为。通常客户端的操作都是GET获取资源，POST发送HTML form表单值。

b.Path：要获取的资源路径，通常是上下文中就很明显的元素资源的URL，没有protocol（http：//），domain（XXX.org），或者TCP的port（HTTP一般在80端口）。

c.HTTP协议版本号

d.为服务端表达其他信息的可选头部headers

2.响应

a.HTTP协议版本号

b.一个状态码：来告知对应请求执行成功或失败，以及失败的原因

c.一个状态信息：非权威的状态码描述信息，可以由服务端自行设定

d.headers:与请求头部类似

e.可选项，比起请求报文，响应报文中更常见地包含获取的资源body

3月22日周五 HTTP缓存

·缓存：一种保存资源副本并在下次请求时直接使用该副本的技术。当web缓存发现请求的资源已经被存储，它会拦截请求，返回该资源的拷贝，而不会去源服务器重新下载。缓存是达到高性能的重要组成部分，需要合理配置，重要的是对一个资源的缓存应截止到其下一次发生改变（即不能缓存过期的资源）。

·缓存的分类（还有网关缓存、CDN、反向代理缓存和负载均衡器等部署在服务器上）

浏览器缓存：私有缓存，只能用于单独用户。浏览器缓存拥有用户通过HTTP下载的所有文

档。

代理缓存：共享缓存，可以被多个用户使用。

·缓存操作的目标：

常见的HTTP缓存只能存储GET响应。缓存的关键主要包括request method和目标URI；

普通缓存案例：

a.一个检索请求的成功响应：对于GET，响应状态码为200表示成功，响应包含例如HTML文档、图片或者文件

b.永久重定向：301，是一条对网站浏览器的指令来显示浏览器被要求显示的不同的URL，当一个网页经历过其URL的最后一次变化以后时使用。

c.错误响应：404

d.不完全的响应：206,只返回局部的信息

e.除了GET，如果匹配到作为一个已被定义的cache键名的响应

3月23日周六 HTTP缓存

·缓存控制 Cache-Control头

HTTP/1.1定义Cache-Control头来区分对缓存机制的支持情况，请求头和响应头都支持这个属性，通过它提供的不同的值来定义缓存策略。

a.禁止进行缓存

Cache-Control: no-store

Cache-Control: no-cache, no-store

b.强制确认缓存

Cache-Control: must-revalidate

每次有请求发出时，缓存会将此请求发到服务器（该请求应该会带有与本地缓存相关的验证字段），服务器端会验证请求中的所描述的缓存是否过期，若未过期（304），则缓存才开始本地缓存副本。

c.私有缓存和公共缓存

默认私有

Cache-Control: public

该响应可以被任何中间人（比如中间代理、内容分发网络CDN）缓存，缓存内容比如带有HTTP验证信息的页面或某些特定影响状态码的页面

Cache-Control: private

该响应专门于单个用户，只能应用于浏览器私有缓存中

d.缓存过期机制

Cache-Control: max-age=<seconds>

max-age是距离请求发起的时间的秒数。针对应用中那些不会改变的文件，通常可以手动设置一定的时长以保证缓存有效，例如图片、css、js等静态资源

e.缓存验证确认

Cache-Control: must-revalidate

缓存在考虑使用一个陈旧的资源时，必须先验证它的状态，已过期的缓存将不被使用

Pragma：HTTP/1.0标准中定义的一个header属性，请求中包含Pragma的效果跟在头信息中定义Cache-Control：no cache相同，但是HTTP的响应头不支持这个属性，所以不能完全替代Cache-control。通常定义Pragma以向后兼容于HTTP/1.0的客户端。

3月24日周日 HTTP缓存

·新鲜度

理论上，当一个资源被缓存存储后，该资源应该可以被永久地存储在缓存中。由于缓存只有有限的空间用于存储资源副本，所以缓存会定期地将一些副本删除，这个过程叫做缓存驱逐。另一方面，当服务器上面的资源进行了更新，缓存中的对应资源也应该被更新，由于HTTP是C/S模式的协议，服务器更新一个资源时，不可能直接通知客户端及其缓存，所以双方必须为该资源约定一个过期时间，在该过期时间之前，该资源（缓存副本）就是新鲜的，当过了过期时间，该资源则变为陈旧的。

驱逐算法用于将陈旧的资源替换为新鲜的，️一个陈旧的资源是不会被直接清楚或忽略的，当客户端发情一个请求，缓存检索到已有一个对应的陈旧资源，则缓存会将此请求附加一个If-None-Match头，然后发给目标服务器，以此来检查该资源副本是否是依然还是算新鲜的，若服务器返回304（Not Modified）（该响应不会有带有实体信息），则表示此资源副本是新鲜的。这样，可以节省一些带宽。若服务器通过If-None-Match或If-Modified-Since判断后发现已过期，那么会带有该资源的实体内容返回。

对于含有特定头信息的请求，会去计算缓存寿命：

Cache-control: max-age=N -------缓存寿命

若不含以上属性就去查看是否包含Expires属性，通过比较Expires的值和头里面Date属性的值来判断是否缓存还有效。

若以上两者都没有，找头里的Last-Modified信息。缓存的寿命就等于头里面Date的值减去Last-Modified的值除以10

expirationTime = responseTime(浏览器接收到此响应的时间点）+freshnessLIfetime-currentage

HTTP概述、HTTP缓存

推荐阅读更多精彩内容