HTTP协议简析

一、HTTP简介

HTTP（Hyper Text Transfer Protocal：超文本传输协议），这个大家都知道。但是什么又是超文本呢？这里顺便说一句，这个问题跟我们上学的时候遇到的情况一样，老师喜欢用一个概念解释另外一个概念，如果你对前者压根就不知道那你就在听天书。所以我们自学的时候一定要弄明白最根本的解释，因为学习就是对一堆新概念的理解，并进行应用。也许这估计也是我们学习不好的原因吧！（怪老师喽？）

言归正传，超文本。互联网上的每个网页都对应一个文件。我们浏览一个页面，要先把页面所对应的文件从提供这个文件的计算机里，通过网络传送到我们自己的计算机中，再由浏览器翻译成为我们见到的有文字、有图形甚至有声音的页面。这些页面对应的文件不再是普通的“文本文件”，文件中除包含文字信息外，还包括了一些具体的链接（链接到图、声等源头）。这些包含链接的文件被称为超文本文件。和普通文本相比，超文本文件中多了一些对文件内容的注释，这些注释表明了当前文字显示的位置、颜色等信息，更重要的是，在有些注释中包含了对用户计算机应做出何种反应的说明，这些注释的内容经过浏览器的翻译后就成了不同的操作。

其实大家对超文本都不陌生，它的直接体现就是网页，对程序员来说就是HTML或者JSP等文件，写这么多的原因是想告诉大家自学时避免用一个名词解释另一个名词。

HTTP协议：用于从万维网（WWW）服务器传输超文本到本地的协议。是一种基于请求与响应模式的、无状态的、应用层协议。

HTTP协议的主要特点可概括如下：

1.支持客户/服务器模式。

2.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST、DELETE等。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。

3.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

4.无连接（1.0版本协议）：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。（HTTP1.1规定了默认保持长连接，也有翻译为持久连接），数据传输完成了保持TCP连接不断开（不发RST包、不四次握手），等待在同域名下继续用这个通道传输数据，如果HTTP1.1版本的HTTP请求报文不希望使用长连接，则要在HTTP请求报文首部加上Connection: close）

5.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

二、URL

我们所有的HTTP请求都是通过网络地址访问的，也就是URL(URL是一种特殊类型的URI，首先，URI，是Uniform Resource Identifier，统一资源标识符，用来唯一的标识一个资源。而URL是Uniform Resource Locator，统一资源定位器，它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源。也就是说，URI是以一种抽象的，高层次概念定义统一资源标识，而URL和URN则是具体的资源标识的方式。)。

1.URL的格式如下：

schema://host[:port]/path/.../[;url-params][?query-string][#anchor]

scheme 指定低层使用的协议(例如：http, https, ftp)

host HTTP服务器的IP地址或者域名

port HTTP服务器的默认端口是80，这种情况下端口号可以省略。如果使用了别的端口，必须指明，例如 http://www.cnblogs.com:8080/

path 访问资源的路径

url-params 请求参数

query-string 发送给http服务器的数据

anchor 锚

2.URL 的一个例子

http://127.0.0.1:8080/webtest/sj/test;id=8079?name=sviergn&x=true#stuff

Schema: http

host: 127.0.0.1

port:8080

path: webtest/sj/test

URL params: id=8079

Query String: name=sviergn&x=true

Anchor: stuff

三、HTTP的消息结构

3.1 HTTP请求消息（Request）

客户端发送一个HTTP请求到服务器的请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据（body）四个部分组成，下图给出了请求报文的一般格式。

图1 请求消息结构

图2 请求消息

需要指出的是：GET请求是没有请求数据（body）部分的。

3.2 HTTP响应消息（Response）

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

图3 响应消息

状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值：

1xx：指示信息--表示请求已接收，继续处理

2xx：成功--表示请求已被成功接收、理解、接受

3xx：重定向--要完成请求必须进行更进一步的操作

4xx：客户端错误--请求有语法错误或请求无法实现

5xx：服务器端错误--服务器未能实现合法的请求

常见状态代码、状态描述、说明：

200 OK //客户端请求成功

400 Bad Request //客户端请求有语法错误，不能被服务器所理解

401 Unauthorized //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用

403 Forbidden //服务器收到请求，但是拒绝提供服务

404 Not Found //请求资源不存在，eg：输入了错误的URL

500 Internal Server Error //服务器发生不可预期的错误

503 Server Unavailable //服务器当前不能处理客户端的请求，一段时间后可能恢复正常

四、HTTP请求方法

1.方法列表

HTTP1.0定义了三种请求方法： GET, POST 和 HEAD方法。

HTTP1.1新增了五种请求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

图4 请求方法

但是大部分我们平常使用的HTTP框架都只实现了GET和POST。

2.GET和POST请求区别

（1）在客户端，Get方式在通过URL提交数据，数据在URL中可以看到；POST方式，数据放置在HTML HEADER内提交。

（2）对于get方式，服务器端用Request.QueryString获取变量的值，对于post方式，服务器端用Request.Form获取提交的数据。（默认情况是这样，但根据content-type不同会有所不同）

（3）GET方式提交的数据最多不能超过浏览器URL限制长度，而POST则没有此限制

（4）GET方式因为将参数暴露在URL中，安全性不如POST

五、总结

其实这篇简析写的比较简单，只是大概介绍了HTTP协议的样子，但是有几点值得注意。

1.URL格式

2.请求和响应的消息报文格式

3.我们经常前台使用的application/json，后台为什么需要通过流读取

4.Ajax请求、以及常用的Http框架怎么才能很好的处理post和get请求以及不同的参数存放位置

后面还想写一篇HttpServlet来解析 3 和4的问题

HTTP协议简析