我们知道,我们要访问互联网资源,都需要一个浏览器的帮助,可以是Chrome,Firefox或者IE等等,那么,举个例子,我们在浏览器地址栏中输入Github的网址https://github.com/fanyj1994,一直到Github的页面内容出现在浏览器视口中,这之间发生了什么呢?也就是说,浏览器是如何工作的呢?在了解这个过程之前,我们先了解一些关于浏览器的知识。
- 网址(URL)
- IP地址
- DNS域名系统
网址(URL)的几个部分
我们在浏览器的地址栏输入https://github.com/fanyj1994,这部分内容就是我们常说的网址,又叫做统一资源定位符,也就是URL(Uniform Resource Locator),URL是URI的一种常见形式,URI(Unicode Resource Identifier),也叫做统一资源标识符,它是一个用于标识互联网资源的字符串,就像我们每个人名字一样。除了URL,还有一种URI形式是URN,也叫做统一资源名称,这种形式比较罕见。
在这个URL中,https 称为协议,是超文本传输协议的缩写。后面的github.com是网站所属的主机名,而后面剩余的部分则是路径,因为对于一个网站来说,它可能包括很多页面,而这些路径则决定了具体网页所在的位置,有的时候,这些路径会作为子域放到主机的前面。还有一些网站会加上一些端口号,例如我们常见的80端口,另外,在GET模式的窗体下,最后会有以"?"为起点的的查询参数,例如https://github.com/fanyj1994?tab=repositories中的tab=repositories部分则查询的是tab为repositories的标签页。也就如下图所示:
IP地址(Internet Protocol Address)
IP地址是分配给网络上使用网际协议的设备的数字标签,网际协议也就是IP协议,IP协议是TCP/IP协议中网络层的主要协议,其任务是根据源主机和目的主机的地址传送数据。常见的IP地址有IPv4和IPv6两大类,前者由32位二进制数组成,而后者长度变长,由32位十进制数组成。
也就是说,每一个使用IP协议的设备都会有一个独立的IP地址,所以,每个网址后面其实也就对应一个独一无二的IP地址,来代表网络设备的所在位置。
DNS域名系统(Domain Name System)
我们知道,全世界已经有数百亿台互联网设备,也就是说,已经存在数百亿个IP地址,而且这个数字在不断攀升,当输入一个网址,要寻找其对应的IP地址就是一项十分艰巨的任务了,而DNS就是负责这项任务的服务,它是一个域名与IP地址相互映射的分布式数据库,它可以将人们不能读懂的IP地址转换为相对应的语义化的域名,就像我们看到https://www.google.com自然知道这是谷歌搜索,但是看到216.58.210.142这个IP地址并不知道它指向哪里,而事实上这就是google.com对应的IP地址。
这个查询的基本过程是这样的:客户端会发送一个查询报文(大概是query google.com这样的)到DNS服务器,DNS会首先检查自身的缓存,如果已经有这个记录,它会直接返回,如果没有找到,则DNS会继续发送查询报文到根域名服务器(最顶级的域名服务器),根域名服务器会返回.com域的顶级域名服务器(也即TLD服务器top-level-domain)的地址(人家是顶级的,只管这些顶级域名),得到顶级域名服务器的地址之后,DNS服务器会接着发送查询报文到这个地址,然后得到google.com的权威域名服务器地址,取得这个地址后,DNS服务器会将这个地址存入自身的缓存(下次再用就不用这么费劲咯)并将结果返回给客户端,然后客户端会根据IP地址,进行定位,并发送请求。所以DNS数据库就像一个具有主观能动性的电话簿,其基本结构如下图。第二层也就是是权威服务器。
值得注意的是,对于拥有子域名的一些URL,例如谷歌地图,其实在DNS查询过程中,.com的顶级域名服务器在返回google.com的权威域名服务器地址时,会附上它所有子域名(map/translate/play等)的信息,这个过程被形象地称为胶水。
关于更详尽的关于DNS系统如何工作,请看这里生动有趣的阐释~
浏览器的工作
了解了这些名词之后,我们来着了解,当在浏览器中输入网址https://github.com/fanyj1994并按下回车后,到拿到这个页面,整个过程发生了什么。
输入地址后,浏览器会通过DNS来查找到与这个地址相匹配的IP地址192.30.253.112,并与之连接,并等待目标地址(也就是Github服务器)确认连接之后,浏览器会发出一个HTTP请求,Github的服务器收到请求之后,会根据请求进行相关的响应和操作(数据查找之类的),然后会返回一个网页(HTML页面),浏览器接到页面之后,进行解析(CSS渲染之类,JS行为添加),然后呈现在我们面前。
这就是一次简单的网络访问过程。