五分钟了解网络连接

前言：笔者最近阅读大量网络原理相关书籍，因此总结出此文，读完本文，读者们应该要了解下面名词：

浏览器、Web服务器、网址(URL)、HTTP、HTML、协议、URI、请求消息、解析器、Socket库、DNS服务器、域名

网络原理系列文章：
一、五分钟了解网络连接(已完成)
二、收发数据的原理(上)(已完成)
三、收发数据的原理(下)(已完成)
四、收发数据的番外篇(未完成)

生成HTTP请求消息
向DNS服务器查询Web服务器的IP地址
DNS服务器的互相配合(如何找出IP地址)
委托协议栈发送消息

生成HTTP请求消息

1、从网址开始

我们看NBA，要在浏览器输入某个nba网址吧，没错。就是那串http://开头的那串玩意儿, http://sports.qq.com/，如下图，只不过浏览器把前面的http://隐藏而已，复制可以见到完整网址。

腾讯体育

这串玩意儿叫网址，更准确的叫URL（统一资源定位符）

我们一般访问的是Web服务器，但实际上浏览器还有很多功能，FTP（文件传输协议）服务器上下载和上传文件，同时也具备电子邮件客户端的功能。所以有各种不同的URL。访问Web服务器用“http”，而访问FTP服务器用“ftp”.下面图一列举了互联网常见的几种URL,不💖喜欢看请忽略。
在此，请对域名，有个浅显了解。往后会详细介绍。

域名：像www.baidu.com这样以句点(.)分隔的名称。

图一

URL开头的文字，即 “http:” “file:” “mailto:” 这部分文字都表示文字都表示浏览器应当使用的访问方法。比如访问Web服务器时应该使用HTTP协议，而访问FTP服务器则应该使用FTP协议。因为，我们可以把这部分理解为访问时使用的协议类型

HTTP协议：超文本协议

2、HTTP的思路

HTTP的基本思路

HTTP协议定义了客户端和服务端之间交互的消息内容和步骤。首先，客户端向服务器发送请求消息，请求消息包含两部分（“对什么”和“进行怎样的操作”）。“对什么”是指访问目标（URI），“进行怎样的操作”则是指方法，也称HTTP谓词。收到请求消息后，Web 服务器会对其中的内容进行解析，通过接收的URI和方法完成自己的工作，然后将结果存放在响应消息中，返回给客户端。

笔者认为，URI强调的是给资源标记命名，URL强调的是给资源定位，URL显然比URI包含信息更多，举个例子，我是小肥仔，我是来自广东深圳市光明区某路某小区201号房的小肥仔彭友。如果URI为前者，则URL为后者。

3、生成HTTP请求消息

使用GET方法的情况下，仅凭方法和URI，Web 服务器就能判断需要进行怎样的操作，因此消息体中不需要填写任何数据。而POST则需要消息体。

4、返回响应消息

我们把请求消息发送出去之后，Web服务器会返回响应消息。其中会有状态码和响应短语。

状态码概要

1条请求消息中只可以写1个uRI,所以每次只能获取1个文件。比如1个页面中包含3张图片，那么获取网页加上获取图片，一共需要向Web服务器发送4条请求。

向DNS服务器查询Web服务器的IP地址

1、IP地址的基本知识

生成HTTP消息之后，我们需要委托操作系统将消息发送给Web服务器。

因为浏览器只能解析网址并生成HTTP消息，但它本身不具将消息发送到网络中的功能，只能委托操作系统。操作系统发送消息，必须提供IP地址，而不是通信对象的域名(前面说过，类似www.baidu.com的一串玩意)。所以生成HTTP消息的下一个步骤就是根据根据域名查询IP地址。

IP地址科普：

互联网和公司内部的局域网都是基于TCP/IP的思路来设计，TCP/IP结构是由一些小的子网，通过路由器连接起来组成一个大网络。这里的子网暂时可以理解为几台计算机。
在网络中，所有的设备都会被分配一个地址。这个地址就相当于现实中某条路上的“xx号xx室”。其中“号”是分配给整个子网的，而“室”对应的号码称为网络号，“室”对应的号码称为主机号，这个地址的整体叫做IP地址。
通过IP地址，我们可以判断出对象服务器的位置，从而将消息发送到服务器。实际的IP地址是一串32比特的数字，按照8比特(1字节)为一组分成4组，分别用十进制表示，然后再用圆点隔开。eg:“10.11.12.13”、“202.96.128.86”

2、域名和IP地址并用的理由

TCP/IP网络是通过IP地址来确定通信对象，因此不知道IP地址就无法将消息发送给对方，这跟我们打电话需要知道对方的电话号码一样才可以。

可能有人会问，为什么不直接用IP地址去访问网址，确实，我们直接输入IP地址是可以访问的。但是IP地址那串数字，难以记住。比如百度的网址，不是“www.baidu.com”，而是“202.96.128.99”，你怎么记住呢？

然后你可能又会问，干么不直接用域名去确定通信对象呢，其实，这是可以的，但是这会影响运行效率。

IP地址的长度为32比特(4字节)，而域名最短的也要几十个字节，最长甚至可以达到255字节。字节长而且长短不一，处理起来非常复杂，所以这影响了效率（增加路由器的负担）。

3、Socket 库提供查询IP地址的功能

DNS服务器可以帮我们查询到IP地址。

通过DNS服务器发出查询的操作成为域名解析。负责解析的这个操作就叫做解析器，解析器它是一段程序，包含在操作系统的Socket库中（Socket库包含很多发送和接受数据的程序组件，是网络开发的一种标准库）。Socket库是标准组件，我们从应用程序进行调用即可。如果，解析器的程序名称为“getIPadressWithDN”，以及需要解析的域名为“www.baidu.com”，过程如下:

解析器的调用方法

4、解析器的内部原理

解析器生成要给DNS服务器的查询消息，但是解析器本身也不具备使用网络收发数据的功能(之所以用“也”，是因为这一过程跟浏览器生成HTTP消息发送给Web服务器类似)，所以需要委托协议栈(操作系统内部的网络控制软件，也叫“协议驱动”、“TCP/IP驱动”)执行操作，再通过网卡发给DNS服务器。

网络程序调用解析器，程序的控制流程会发生转移。那么“控制流程转移”指的是什么呢？
一般来说，应用程序编写的操作内容是从上往下按顺序执行的，当到达需要调用解析器的部分时，对应的那一行程序就会执行，应用程序本身的工作就会暂停，然后，Socket库的解析器开始运行，完成应用程序委托的操作。像这样，由于调用其他的程序，原本运行的程序进入暂停状态，而被调用程序的开始运行。这就是“控制流程转移”。

DNS服务器的互相配合

1、DNS服务器的基本工作

DNS的基本工作就是接受来自客户端查询消息，然后根据消息的内容返回响应。其中，客户端的消息包含3中信息

1、域名：
服务器、邮件服务器（邮件地址中@后面的部分）的名称
2、Class:它的值永远为“IN”
3、记录类型：
表示域名对应何种类型的记录。当类型为A(Address)时，表示域名对应的是IP地址；MX(Mail eXchange)时，则表示域名对应的是邮件服务。

一、查询“www.baidu.com”IP地址：

域名=www.baidu.com、Class = IN、记录类型=A

二、查询“dwyane@qq.com”邮件服务器:

域名=qq.com”、Class = IN、记录类型=MX

DNS服务器的基本工作

2、域名的层次结构

互联网中不计其数的服务器，所以存储他们信息的只用一台DNS服务器是不可能的，需要将信息分布在多台DNS服务器，然后它们相互接力配合，从而查找出要查的信息。DNS服务器中所有信息都是按照域名以分层次的结构保存。类似公司中的事业集团、部门、科室结构。

DNS中的域名是用句点来分隔的，域名越靠右的位置表示层级越高。比如：“www.ituring.com.cn”域名，cn 是公司集团，com 是研发部， ituring 是后台小组，所以可以理解为某公司集团cn 下的com 研发部的 ituring 后台小组的 www。其中相当一个层级的部分称为域，即 com 域的下一层级是 ituring 域，再下一层才是 www 这个名字

cn是国家顶级域名，中国是cn，美国是us，日本是jp，表示工商企业的 .com，表示网络提供商的.net，表示非盈利组织的.org等

有时我们会看到类似这种“sports.qq.com”、“finance.qq.com ”,这两者有什么关联吗？
这两者其实就是某讯旗下的体育和金融版本,“qq.com”是他的公司域，因为不可能说一个公司的不同板块（或者说不同的事业集团），我给你公司多个DNS服务器，一个域是不可分割的。解决办法是建立子域。例如某讯就是在公司域“qq.com”的下面建立子域“sports.qq.com”、“finance.qq.com ”

寻找相应的DNS服务器并找到IP地址

找到DNS服务器中存放的信息，关键是找到信息归哪台DNS服务器管。

HTTP的三次握手、四次挥手
https://blog.csdn.net/AI_Gentleman/article/details/81209053

互联网有无数台DNS服务器，不可能一台一台挨个找。所以采取以下方法。首先，将负责管理下级域的DNS服务器的IP地址注册到他们的上级DNS服务器中，然后上级DNS服务器的IP地址再注册到更高一级的DNS服务器中，以此类推。

在互联网中，比com和cn更高一级，称为根域。根域在域名的最后加上一个点，如“www.baidu.com.”最后的那个句点代表根域名，但是那个句点经常被省略,根域的DNS服务器保管着com、cn等DNS服务器的信息。由于上级DNS服务器保管着所有下级DNS服务器的信息，所以我们可从根域开始一路往下顺藤摸瓜找到任意一个域的DNS服务器。

另外，根域的DNS服务器信息存在互联网中所有的DNS服务器中。分配给根域DNS服务器的IP地址只有13个。

下面以“www.gov.cn”和“sports.qq.com”举例说明DNS服务器查找流程

DNS服务器查找流程

客户端首先会访问最近的一台DNS服务器(也就是客户端的TCP/IP设置中填写的DNS服务器地址)，假设我们要查找“sports.qq.com”这台Web服务器相关信息，但由于最近的DNS服务器没有存放“sports.qq.com”这一域名对应的信息，所以从该服务器获取根域的地址，把查询消息转发给根域，继续从根域查找，根域没有该域名信息，继续往下找，去到com域找，com域没有“sports.qq.com”的信息，所以返回他下一级的“qq.com”域的DNS服务器IP地址，继续往下找...

DNS地址

通过缓存加快DNS服务器的响应

有时候不需要从最上级的根域开始查找，因为DNS服务器有一个缓存功能，可以记住之前的域名。如果要查询的域名和相关信息已经在缓存中，那么可以直接从缓存处得到所需信息，然后从缓存位置开始向下查找。这样对比与从根域开始，减少了查询时间。

当查询的域名不存在时，缓存也会存储起来，下次查询时，直接快速反应。
如果信息被缓存了，原本的注册信息可能会发生改变，那么缓存中的信息就可能不正确了，因此，DNS服务器中保存的信息设置一个有效期，当缓存中的信息超过有效期后，数据就会从缓存中删除。

委托协议栈发送消息

数据收发操作

获悉ip之后，就可以委托操作系统内部的协议栈发送消息到目标IP地址，也就是发送到Web服务器，发送给Web服务器的HTTP消息是一种数字消息。

简单来说，整体思路就是收发数据的两台计算机之间连接了一个数据通道，数据沿着这个通道流动，最终到达目的地，会在目的地的那一端被取出。数据流动是双向的，可以从任何一个端流入。

实际过程，可把收发数据总结为四步：

1、创建套接字（创建套接字阶段）
2、将管道连接到服务器端的套接字上（连接阶段）
3、收发数据（通信阶段）
4、断开管道并删除套接字（断开阶段）

参考文献：
域名知识百科
网络是怎样连接的