一,简单初步的Web和网络基础介绍
当我们在网页浏览器的地址栏中输入URL时,或许会思考Web页面是如何诚呈现的呢?Web页面当然不能凭空显示出来,而是通过发送请求从Web服务器端获取文件资源并显示出来。另外,Web是建立在HTTP协议上通信的。
为了更好的理解HTTP,我们有必要在此之前了解一下TCP/IP协议族。TCP/IP协议族是把互联网想关联的协议集合起来后的总称。而其中最重要的概念就是分层,协议族按层次主要分为以下四类:应用层、传输层、网络层和数据链路层。
关于TCP/IP相关信息在此不做详述,这里就暂用一张图标来了解一下IP协议、TCP协议和DNS服务在使用HTTP协议的通信过程中各自发挥的作用。
URL正是使用Web浏览器等访问Web页面时需要输入的网页地址。URI是Uniform Resource Identifier的缩写,是由某个协议方案表示的资源的定位标识符。表示指定的URI涵盖全部必要信息的绝对URI、绝对URL以及相对URL。相对URL是指从浏览器中基本URI处指定的URL。而绝对URL的格式则是
二,HTTP协议结构
HTTP协议用于客户端和服务器端之间的通信,并通过请求和响应的交换而达成通信。请求由客户端发出,而服务器回复响应。
请求报文的构成如下,其中POST表示请求访问服务器的类型,称之为方法。请求报文是由请求方法、请求URI、协议版本、可选的请求首部字段和内容实体构成的。
响应报文的构成如下,响应报文基本上由协议版本、状态码(表示请求成功或失败的数字代码)、用以解释状态码的原因短语、可选的响应首部字段以及实体主体构成。
另外,HTTP是不保存状态的协议,即无状态协议,自身不对请求和响应之间的通信状态进行保存。这样的设计对快速处理大量事务,确保协议的可伸缩性有一定的帮助,但是无状态也会导致业务处理变得有时棘手,例如跳转到同一购物网站的其他页面,当然能够继续保持登录状态是对用户更友好的。因此,在此引入了Cookie技术。Cookie会根据从服务器端发送的响应报文内的一个叫做Set-Cookie的首部字段信息,通知客户端保存Cookie。下图很形象地描述了Cookie的作用。
HTTP/1.1中可使用的方法有:
1,GET:获取资源
GET方法用来请求访问已被URI识别的资源。指定的资源经服务器端解析后返回响应内容。如果请求的是文本,则保持原样返回;如果是类似CGI(通用网关接口)那样的程序,则返回经过执行后的输出结果。
2,POST:传输实体主体
POST方法用来传输实体的主体。虽然用GET方法可以传输实体的主体,但一般不用GET方法进行传输,而是用POST方法。但是POST的主要目的不是获取响应的主体内容。
3,PUT:传输文件
PUT用来传输文件。它要求在请求报文的主体中包含文件内容,然后保存到请求URI指定的位置。但是要注意的是PUT方法自身不带验证机制,任何人都可以上传文件,这里存在着安全性问题。若配合Web应用程序的验证机制,或架构设计采用REST(表征状态转移)标准的同类Web网站,就可能会开放使用PUT方法。
4,HEAD:获取报文首部
HEAD方法与GET方法一样,只是不返回报文主体部分,用于确认URI的有效性及资源更新的日期时间等。
5,DELETE:删除文件
DELETE方法用来删除文件,是与PUT相反的方法。它按请求URI删除指定的资源。但是HTTP/1.1的DELETE方法本身和PUT方法一样不带验证机制,所以一般Web也不使用。当配合Web应用程序的验证机制,或遵守REST标准还是有可能会开放使用的。
6,OPTIONS:询问支持的方法
OPTIONS方法用来查询针对请求URI指定的资源支持的方法。
7,TRACE:追踪路径
TRACE方法让Web服务器端将之前的请求通信环回給客户端的方法。
发送请求时,在Max-Forwards首部字段中填入数值,每经过一个服务器就将该数字减1,当数值刚好减为0时就停止继续传输,最后接收的请求的服务器则返回状态码200 OK的响应。
客户端可以通过TRACE方法查询发送出去的请求是怎样呗加工修改/篡改的。
8,CONNECT:要求用隧道协议连接代理
CONNECT方法要求在与代理服务器通信时建立隧道,实现用隧道协议进行TCP通信,这其中主要使用SSL和TLS协议把通信内容加密后经网络隧道传输。
持续连接
最后说下持续连接。由于HTTP协议的初始版本中,每次进行一次通信都要断开一次TCP连接。但是由于传输信息量的增大,每次请求都造成的无谓TCP连接建立和断开,增加了通信量的开销。因此,提出了持续连接HTTP keep-alive方法,它的特点是只要任意一端没有明确提出断开连接,则保持TCP连接状态。这样减轻了服务器的负载。在HTTP/1.1中,所有连接都是默认是持续连接。持续连接多数请求以管线化方式发送成为可能。这样就能做到同时并行发送多个请求,而不需要一个接一个地等待响应了。管线化技术比持续连续还要快,请求数越多,时间差越明显。