3月18日 周一 HTTP概述
·HTTP是一种能够获取如HTML这样的网络资源的通讯协议,是Web上进行数据交换的基础,是一个CS协议。请求通常是由像浏览器这样的接受方发起。
·web文档——>网络——>服务器
·客户端:如浏览器,发出requests 服务端:响应responses。
·HTTP是应用层协议,通过TCP或者TLS(Transport Layer Security 加密的TCP)来发送。理论上任何可靠的传输协议都可以使用、具备良好的拓展性。
·代理Proxies:在浏览器和服务器之间,有许多计算机和其他设备转发了HTTP消息,大多在传输层、网络层和物理层,而有一部分是表现在应用层上,即代理。有如下作用:缓存、过滤、负载均衡(让多个服务器服务不同的请求)、认证(对不同资源进行权限管理)、日志记录
3月19日 周二 HTTP概述
·HTTP基本性质:
简单:HTTP报文能够被人读懂,允许简单测试,虽然HTTP/2协议将HTTP消息封装到了帧
可拓展:HTTP/1.0中出现的HTTP headers。只要服务端和客户端就新headers达成语义一致就能加入新功能
无状态、有会话:在同一个连接中两个执行成功的请求之间没有关系,使用HTTP的头部拓展,HTTP Cookies可以解决这个问题。把Cookies添加到头部中创建一个会话让每个请求都能共享相同的上下文信息,达成相同的状态。HTTP本质是无状态的,使用Cookies可以创建有状态的会话。
HTTP和连接:
一个连接是由传输层来控制的(HTTP是应用层协议),不属于HTTP范围。HTTP并不需要其底层的传输层协议是面向连接的,只需要它的可靠或不丢失消息(至少返回错误)。两个常用的传输层协议:TCP可靠,UDP不是。因此,HTTP依赖于面向连接的TCP进行消息传递,但连接并不是必须的。
HTTP/1.0为每一个请求/响应都打开一个TCP连接,导致2个缺点:打开一个TCP连接需要多次往返消息传递,因此速度慢。但当多个消息周期性发送时,这样就变得更加高效:暖连接比冷连接更高效。
为减轻以上缺陷,HTTP/1.1引入了流水线(被证明难以实现)和持久连接的概念:底层的TCP连接可以通过Connection头部来被部分控制。HTTP/2则通过在一个连接复用消息的方式来让这个连接始终保持为暖连接。
设计一种更好传输协议的进程一直在进行,Google研发了一种以UDP为基础,能提供·更可靠更高效的传输协议QUIC。
3月20日 周三 HTTP概述
·被HTTP控制的常见特性:
缓存:
服务端能告诉代理和客户端哪些文档需要被缓存,缓存多久,客户端也能命令中间的缓存代理来忽略储存的文档。
开放同源限制:
为了防止网络窥听和其他隐私泄漏,浏览器强制对Web网络做了分割限制,只有来自于相同来源的网页才能够获取网站的全部信息。这样的限制有时反而成了负担,HTTP可以通过修改头部来开放这种限制,因此Web文档可以由不同域下的信息拼接成的(某些情况下,这样做还有安全因素考虑)
认证:
一些页面能够被保护起来,仅让特定的用户进行访问。基本的认证功能可以通过HTTP提供,使用Authenticate相似的头部即可或用HTTP Cookies来设置指定的会话。
代理和隧道:
通常情况下,服务器或客户端处于内网,对外网隐藏真实IP地址,HTTP请求就要通过代理越过这个网络屏障。但并非所有的代理都是HTTP代理,比如SOCKS协议的代理就运作在更底层,一些像FTP这样的协议也能够被它们处理。
会话:
使用HTTP Cookies可以用一个服务端的状态发起请求,创建会话。虽然HTTP是无状态协议,但这使得任何网站都能轻松为用户定制展示内容。
3月21日 周四 HTTP概述
·HTTP流
当客户端想要和服务端(指最终服务器或者一个中间代理)进行信息交互时,过程如下:
1.打开一个TCP连接:TCP连接被用来发送一条或多条请求以及接受响应消息。客户端能打开一条连接/重用一个已经存在的连接/开几个新的TCP连接连向服务端。
2.发送一个HTTP报文:HTTP/2之前HTTP报文语义可读,HTTP/2中这些简单的消息被封装在了帧中不能被直接读取。
3.读取服务端返回的报文信息
4.关闭连接或者为后续请求重用连接
HTTP流水线:后续请求都可以不用等待第一个请求的成功响应就被发送。很难实现,因为现有网络中有很多老旧的软件与现代版本的软件共存。因此,HTTP流水线已被在有多请求下表现的更稳健的HTTP/2的帧所取代。
·HTTP报文
HTTP/2中HTTP报文被嵌入到了一个新的二进制结构——帧。帧允许实现很多优化,比如报文头部的压缩和复用。即使只有原始HTTP报文的一部分以HTTP/2发送出来,每条报文的语义依旧不变,客户端会重组原始HTTP/1.1请求,因此用HTTP/1.1格式来理解HTTP/2报文依旧OK。
HTTP报文有两种类型:
1.请求
a.Method: GET/POST/OPTIONS/HEAD定义客户端动作行为。通常客户端的操作都是GET获取资源,POST发送HTML form表单值。
b.Path:要获取的资源路径,通常是上下文中就很明显的元素资源的URL,没有protocol(http://),domain(XXX.org),或者TCP的port(HTTP一般在80端口)。
c.HTTP协议版本号
d.为服务端表达其他信息的可选头部headers
2.响应
a.HTTP协议版本号
b.一个状态码:来告知对应请求执行成功或失败,以及失败的原因
c.一个状态信息:非权威的状态码描述信息,可以由服务端自行设定
d.headers:与请求头部类似
e.可选项,比起请求报文,响应报文中更常见地包含获取的资源body
3月22日 周五 HTTP缓存
·缓存:一种保存资源副本并在下次请求时直接使用该副本的技术。当web缓存发现请求的资源已经被存储,它会拦截请求,返回该资源的拷贝,而不会去源服务器重新下载。缓存是达到高性能的重要组成部分,需要合理配置,重要的是对一个资源的缓存应截止到其下一次发生改变(即不能缓存过期的资源)。
·缓存的分类(还有网关缓存、CDN、反向代理缓存和负载均衡器等部署在服务器上)
浏览器缓存:私有缓存,只能用于单独用户。浏览器缓存拥有用户通过HTTP下载的所有文
档。
代理缓存:共享缓存,可以被多个用户使用。
·缓存操作的目标:
常见的HTTP缓存只能存储GET响应。缓存的关键主要包括request method和目标URI;
普通缓存案例:
a.一个检索请求的成功响应:对于GET,响应状态码为200表示成功,响应包含例如HTML文档、图片或者文件
b.永久重定向:301,是一条对网站浏览器的指令来显示浏览器被要求显示的不同的URL,当一个网页经历过其URL的最后一次变化以后时使用。
c.错误响应:404
d.不完全的响应:206,只返回局部的信息
e.除了GET,如果匹配到作为一个已被定义的cache键名的响应
3月23日 周六 HTTP缓存
·缓存控制 Cache-Control头
HTTP/1.1定义Cache-Control头来区分对缓存机制的支持情况,请求头和响应头都支持这个属性,通过它提供的不同的值来定义缓存策略。
a.禁止进行缓存
Cache-Control: no-store
Cache-Control: no-cache, no-store
b.强制确认缓存
Cache-Control: must-revalidate
每次有请求发出时,缓存会将此请求发到服务器(该请求应该会带有与本地缓存相关的验证字段),服务器端会验证请求中的所描述的缓存是否过期,若未过期(304),则缓存才开始本地缓存副本。
c.私有缓存和公共缓存
默认私有
Cache-Control: public
该响应可以被任何中间人(比如中间代理、内容分发网络CDN)缓存,缓存内容比如带有HTTP验证信息的页面或某些特定影响状态码的页面
Cache-Control: private
该响应专门于单个用户,只能应用于浏览器私有缓存中
d.缓存过期机制
Cache-Control: max-age=<seconds>
max-age是距离请求发起的时间的秒数。针对应用中那些不会改变的文件,通常可以手动设置一定的时长以保证缓存有效,例如图片、css、js等静态资源
e.缓存验证确认
Cache-Control: must-revalidate
缓存在考虑使用一个陈旧的资源时,必须先验证它的状态,已过期的缓存将不被使用
Pragma:HTTP/1.0标准中定义的一个header属性,请求中包含Pragma的效果跟在头信息中定义Cache-Control:no cache相同,但是HTTP的响应头不支持这个属性,所以不能完全替代Cache-control。通常定义Pragma以向后兼容于HTTP/1.0的客户端。
3月24日 周日 HTTP缓存
·新鲜度
理论上,当一个资源被缓存存储后,该资源应该可以被永久地存储在缓存中。由于缓存只有有限的空间用于存储资源副本,所以缓存会定期地将一些副本删除,这个过程叫做缓存驱逐。另一方面,当服务器上面的资源进行了更新,缓存中的对应资源也应该被更新,由于HTTP是C/S模式的协议,服务器更新一个资源时,不可能直接通知客户端及其缓存,所以双方必须为该资源约定一个过期时间,在该过期时间之前,该资源(缓存副本)就是新鲜的,当过了过期时间,该资源则变为陈旧的。
驱逐算法用于将陈旧的资源替换为新鲜的,️一个陈旧的资源是不会被直接清楚或忽略的,当客户端发情一个请求,缓存检索到已有一个对应的陈旧资源,则缓存会将此请求附加一个If-None-Match头,然后发给目标服务器,以此来检查该资源副本是否是依然还是算新鲜的,若服务器返回304(Not Modified)(该响应不会有带有实体信息),则表示此资源副本是新鲜的。这样,可以节省一些带宽。若服务器通过If-None-Match或If-Modified-Since判断后发现已过期,那么会带有该资源的实体内容返回。
对于含有特定头信息的请求,会去计算缓存寿命:
Cache-control: max-age=N -------缓存寿命
若不含以上属性就去查看是否包含Expires属性,通过比较Expires的值和头里面Date属性的值来判断是否缓存还有效。
若以上两者都没有,找头里的Last-Modified信息。缓存的寿命就等于头里面Date的值减去Last-Modified的值除以10
expirationTime = responseTime(浏览器接收到此响应的时间点)+freshnessLIfetime-currentage