深入Web请求过程——HTTP解析

B/S架构
  • 统一的浏览器(Browser):方便,屏蔽了不同服务商提供服务的差异性
  • 服务端(Server)统一的HTTP协议,简化服务开发者和服务器提供商的开发
HTTP协议

无状态的短连接的通信方式,一次请求就完成了数据交互,然后这次连接就断开了。这种方式是为了能够同时服务更多的用户。

B/S的基本原则
  • 互联网上所有的资源都要一个URL(统一资源定位符)表示
  • 必须遵循HTTP协议
  • 数据展示必须在浏览器中进行
如何发起一个HTTP请求
  • 发起一个HTTP请求的过程就是建立一个Socket通信的过程(什么是Socket通信?)
  • httpclient 开源的通过程序实现的处理HTTP请求的工具包
  • LInux的curl指令 curl+url即可发起一个简单的HTTP请求


    HTTP请求返回的HTML数据
HTTP解析

最重要的就是HTTP Header(控制用户的数据传输,关键的是控制着用户浏览器的渲染行为和服务器的执行逻辑)
常见的HTTP请求头,响应头,状态码见本文:HTTP协议

浏览器缓存机制

如果我们浏览一个页面发现有异常情况,通常会考虑是缓存问题,一般做法是Ctrl+F5(mac 下是command+shift+R)刷新页面(为什么不是F5(mac 下是command+R)),就一定可以拿到最新的页面。(F5和Ctrl+F5区别?)

  • 使用Ctrl+F5,浏览器会直接向目标URL发送请求,而不会使用浏览器缓存的数据
  • 使用Ctrl+F5,在HTTP请求中会增加一些请求头,它告诉服务端我们要获取的是最新数据而不是缓存。
    即增加的两个请求头是:Pragma:no-cache, Cache-Control:no-cache。那么这两个请求头有什么作用呢?
Cache-Control/Pragma

这个HTTP Head字段用于指定所有缓存机制在整个请求/响应链中必须服从的命令,如果知道该页面是否为缓存,不仅可以控制浏览器,还可以控制和HTTP相关的缓存或代理服务器。该HTTP Head字段一些可选值如下:


HTTP Head字段可选值

Cache-Control请求字段被各个浏览器支持的很好,而且它的优先级也比较高,它和其他请求字段(Expires)同时出现时,Cache-Control会覆盖其他字段。
Pragma字段的作用和Cache-Control有点类似,它也是在HTTP头中包含一个特殊的指令,使得相关的服务器遵守该指令。最常用的就是Pragma:no-cache, 它和Cache-Control:no-cache的作用一致。

Expires

Expires通常的使用格式是Expires:Sat,25 Feb 2018 12:22:12 GMT,后面跟着一个日期和时间。超过这个时间值之后,缓存的内容就会失效。即浏览器发送请求之前会检查这个页面的这个字段,看该页面是否过期,过期了就重新向服务器发起请求。

Last-Modified/Etag

Last-Modified这个字段一般用于表示一个服务器上的资源的最后修改时间。资源可以是静态的(静态的自动加上Last-Modified字段)也可以是动态的(如Servlet提供一个getLastModified方法用于检查某个动态内容是否已经更新),通过这个最后修改时间可以判定当前请求的资源是否是最新的。
一般服务端在响应头中返回一个Last-Modified字段,告诉浏览器这个页面的最后修改时间,如Last-Modified: Sat, 25 Feb 2012 12:55:04 GMT,浏览器再次请求时在请求头中增加一个 If-Modified-Since:Sat, 25 Feb 2012 12:55:04 GMT字段,询问当前缓存的页面是否是最新的,如果是最新的就返回304状态码,告诉浏览器是最新的,服务器也不会传输新的数据。
与Last-Modified字段有类似功能的还有一个Etag字段,这个字段的作用是让服务端给每个页面分配一个唯一的编号,然后通过这个编号来区分当前这个页面是否是最新的。这种方式比使用Last- Modified更加灵活,但是在后端的Web服务器有多台时比较难处理,因为每个Web服务器都要记住网站的所有资源,否则浏览器返回这个编号就没有意义了。

才疏学浅之处,切莫在意。
                              ——2019.7.15下午

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。