总体来说分为以下几个过程:
- 输入地址
- DNS 解析:将域名解析成IP地址
- TCP 连接:TCP三次握手
- 发送HTTP请求
- 服务器处理请求并返回HTTP报文
- 浏览器解析渲染页面
- 断开连接:TCP四次挥手
URL 到底是啥
URL(Uniform Resource Locator
),统一资源定位符,用于定位互联网上资源,俗称网址。
比如http://www.w3school.com.cn/html/index.asp
,遵守以下的语法规则:
scheme://host.domain:port/path/filename
各部分解释如下:
-
scheme
- 定义因特网服务的类型。常见的协议有http、https、ftp、file
。 -
host
- 定义域主机(http
的默认主机是www
) -
domain
- 定义因特网域名,比如w3school.com.cn
-
port
- 定义主机上的端口号(http
的默认端口号是80) -
path
- 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中) -
filename
- 定义文档/资源的名称
输入地址
当我们开始在浏览器中输入网址的时候,浏览器其实就已经在智能的匹配可能得了,他会从历史记录,书签等地方,找到已经输入的字符串可能对应的URL,然后给出智能提示,让你可以补全URL地址。对于chrome浏览器,他甚至会直接从缓存中把网页展示出来,就是说,你还没有按下enter
,页面就出来了。
域名解析(DNS)
在浏览器输入网址后,首先要经过域名解析,因为浏览器并不能直接通过域名找到对应的服务器,而是要通过IP地址。大家这里或许会有个疑问----计算机既可以被赋予IP地址,也可以被赋予主机名和域名。比如 www.hackr.jp
。那怎么不一开始就赋予个IP地址?这样就可以省去解析麻烦。我们先来了解下什么是 IP 地址。
1.IP 地址
IP地址是指互联网协议地址,是IP Address的缩写。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。IP地址是一个32位的二进制数,比如127.0.0.1为本机IP。
域名就相当于IP地址乔装打扮的伪装者,带着一副面具。它的作用就是便于记忆和沟通的一组服务器的地址。用户通常使用主机名或域名来访问对方的计算机,而不是直接通过IP地址访问。因为与IP地址的一组纯数字相比,用字母配合数字的表示形式来指定计算机名更符合人类的记忆习惯。但要让计算机去理解名称,相对而言就变得困难了。因为计算机更擅长处理一长串数字。为了解决上述的问题,DNS服务应运而生。
2.什么是域名解析
DNS协议提供通过域名查找IP地址,或逆向从IP地址反查域名的服务。DNS是一个网络服务器,我们的域名解析简单来说就是在DNS上记录一条信息记录。
例如baidu.com 220.114.23.56
(服务器外网IP地址)80(服务器端口号)
3. 浏览器如何通过域名去查询URL对应的IP
- 浏览器缓存:浏览器会按照一定的频率缓存 DNS 记录。所以首先会在浏览器的缓存中查找是否有该域名对应的IP地址。在chrome可以通过地址栏中输入
chrome://net-internals/#dns
查看缓存的当前状态。 - 操作系统缓存:如果浏览器缓存中找不到需要的 DNS 记录,那就去操作系统中找。
- 路由缓存:有些路由器也有DNS缓存的功能,访问过的域名会存在路由器上。
- ISP的DNS服务器:ISP是互联网服务提供商(
Internet Service Provider
)的简称,ISP有专门的DNS服务器应对DNS查询请求。在本地查找不到的情况下,就会向ISP进行查询,ISP会在当前服务器的缓存内查找是否有记录。 - 根服务器:ISP的DNS服务器还找不到的话,它就会向根服务器发出请求,进行递归查询(DNS 服务器先问根域名服务器
.com
域名服务器的 IP 地址,然后再问.baidu
域名服务器,依次类推)
小结
浏览器通过向DNS服务器发送域名,DNS服务器查询到与域名相对应的IP地址,然后返回给浏览器,浏览器再将IP地址打在协议上,同时请求参数也会在协议搭载,然后一并发送给对应的服务器。接下来介绍向服务器发送HTTP请求阶段,HTTP请求分为三个部分:TCP三次握手、http请求响应信息、关闭TCP连接。
TCP 三次握手
在客户端发送数据之前会发起TCP三次握手用以同步客户端和服务端的序列号和确认号,并交换 TCP 窗口大小信息。
TCP 三次握手的过程如下:
- 客户端发送一个带SYN=1,Seq=X的数据包到服务器端口(第一次握手,由浏览器发起,告诉服务器我要发送请求了)
- 服务器发回一个带SYN=1,ACK=X+1,Seq=Y 的响应包以示传达确认信息(第二次握手,由服务器发起,告诉浏览器我准备接受了,你赶紧发送吧)
- 客户端再回传一个带ACK=Y+1, Seq=Z的数据包,代表“握手结束”(第三次握手,由浏览器发送,告诉服务器,我马上就发了,准备接受吧)
标识位(TCP FLAG)
TCP的头部固定有20个字节,其中分配了6bits给TCP FLAG,组合起来用来表示当前包的类型。分别是:
- URG:紧急指针,用于将要发送的包标识为“紧急”,这意味着不必等待前段数据被响应处理完即可发送给接收端。
- ACK:确认标识,用于表示对数据包的成功接收。
- PSH:推送标识,表示这个数据包应该被立即发送,不需要等待额外的数据。
- RST:
reset
标识,用来异常关闭连接。 - SYN:同步标识,表示TCP连接已初始化。
- FIN:完成标识,用于拆除上一个SYN标识。一个完整的TCP连接过程一定会有SYN和FIN包。
为啥需要三次握手
三次握手”的目的是“为了防止已失效的连接请求报文段突然又传送到了服务端,因而产生错误”。
“已失效的连接请求报文段”的产生在这样一种情况下:client发出的第一个连接请求报文段并没有丢失,而是在某个网络结点长时间的滞留了,以致延误到连接释放以后的某个时间才到达server。本来这是一个早已失效的报文段。但server收到此失效的连接请求报文段后,就误认为是client再次发出的一个新的连接请求。于是就向client发出确认报文段,同意建立连接。
假设不采用“三次握手”,那么只要server发出确认,新的连接就建立了。由于现在client并没有发出建立连接的请求,因此不会理睬server的确认,也不会向server发送数据。但server却以为新的运输连接已经建立,并一直等待client发来数据。这样,server的很多资源就白白浪费掉了。采用“三次握手”的办法可以防止上述现象发生。例如刚才那种情况,client不会向server的确认发出确认。server由于收不到确认,就知道client并没有要求建立连接。主要目的防止server端一直等待,浪费资源。
发送 HTTP 请求
TCP三次握手结束后,开始发送HTTP请求报文。
请求报文由请求行、请求头、请求体三个部分组成,如下图所示:
请求行包含请求方法、URL、协议版本
- 请求方法包含8种:GET、POST、PUT、DELETE、PATCH、HEAD、OPTIONS、TRACE。
- URL 即请求地址,由 <协议>://<主机>:<端口>/<路径>?<参数> 组成
- 协议版本即
http
版本号
POST /chapter17/user.html HTTP/1.1
请求头包含请求的附加信息,由关键字/值对组成,每行一对,关键字和值用英文冒号“:”分隔。
请求头部通知服务器有关于客户端请求的信息。它包含许多有关的客户端环境和请求正文的有用信息。其中比如:Host
,表示主机名,虚拟主机;Connection,HTTP/1.1
增加的,使用keepalive
,即持久连接,一个连接可以发多个请求;User-Agent
,请求发出者,兼容性以及定制化需求。
请求体,可以承载多个请求参数的数据,包含回车符、换行符和请求数据,并不是所有请求都具有请求数据。
name=tom&password=1234&realName=tomson
服务器处理请求并返回 HTTP 报文
每台服务器上都会安装处理请求的应用——web server。常见的web server产品有 apache、nginx、IIS等。
web server担任管控的角色,对于不同用户发送的请求,会结合配置文件,把不同请求委托给服务器上处理相应请求的程序进行处理,然后返回后台程序处理产生的结果作为响应。
http 响应报文
响应报文由响应行、响应头部、响应主体三个部分组成。如下图所示:
(1) 响应行包含:协议版本,状态码,状态码描述
状态码规则如下:
1xx:指示信息--表示请求已接收,继续处理。
2xx:成功--表示请求已被成功接收、理解、接受。
3xx:重定向--要完成请求必须进行更进一步的操作。
4xx:客户端错误--请求有语法错误或请求无法实现。
5xx:服务器端错误--服务器未能实现合法的请求。
(2) 响应头部包含响应报文的附加信息,由 名/值 对组成
(3) 响应主体包含回车符、换行符和响应返回数据,并不是所有响应报文都有响应数据
浏览器解析渲染页面
浏览器拿到响应文本HTML后,开始渲染页面。
浏览器解析渲染页面分为一下五个步骤:
- 根据HTML解析出DOM树
- 根据CSS解析生成CSS规则树
- 结合DOM树和CSS规则树,生成渲染树
- 根据渲染树计算每一个节点的信息
- 根据计算好的信息绘制页面
断开连接
当数据传送完毕,需要断开tcp连接,此时发起tcp四次挥手。
- 发起方向被动方发送报文,Fin、Ack、Seq,表示已经没有数据传输了。并进入 FIN_WAIT_1 状态。(第一次挥手:由浏览器发起的,发送给服务器,我请求报文发送完了,你准备关闭吧)
- 被动方发送报文,Ack、Seq,表示同意关闭请求。此时主机发起方进入 FIN_WAIT_2 状态。(第二次挥手:由服务器发起的,告诉浏览器,我请求报文接受完了,我准备关闭了,你也准备吧)
- 被动方向发起方发送报文段,Fin、Ack、Seq,请求关闭连接。并进入 LAST_ACK 状态。(第三次挥手:由服务器发起,告诉浏览器,我响应报文发送完了,你准备关闭吧)
- 发起方向被动方发送报文段,Ack、Seq。然后进入等待 TIME_WAIT 状态。被动方收到发起方的报文段以后关闭连接。发起方等待一定时间未收到回复,则正常关闭。(第四次挥手:由浏览器发起,告诉服务器,我响应报文接受完了,我准备关闭了,你也准备吧)
为什么建立连接是三次握手,而关闭连接却是四次挥手呢?
这是因为服务端在LISTEN状态下,收到建立连接请求的SYN报文后,把ACK和SYN放在一个报文里发送给客户端。而关闭连接时,当收到对方的FIN报文时,仅仅表示对方不再发送数据了但是还能接收数据,己方也未必全部数据都发送给对方了,所以己方可以立即关闭连接,也可以发送一些数据给对方后,再发送FIN报文给对方来表示同意现在关闭连接,因此,己方ACK和FIN一般都会分开发送。