HTTP协议
HTTP是一个客户端终端(用户)和服务器端(网站)请求和应答的标准。通过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个HTTP请求到服务器上指定端口(默认端口为80)。我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道。
通常,由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,比如"HTTP/1.1 200 OK",以及返回的内容,如请求的文件、错误消息、或者其它信息。
HTTP链接的状态
无状态链接
HTTP是一种不保存状态,即无状态协议。这指的是,HTTP协议不对请求和响应之间的通信状态进行保存。
持久链接
在HTTP 0.9和1.0中,TCP连接在每一次请求/回应对之后关闭。
在HTTP 1.1中,引入了保持连接的机制,一个连接可以重复在多个请求/回应使用。持续连接的方式可以大大减少等待时间 ,因为在发出第一个请求后,双方不需要重新运行TCP交握程序。
只要任意一端没有明确提出断开连接,则保持TCP连接状态,在请求首部字段中的Connection: keep-alive即为表明使用了持久连接。
Cookie
随着业务的发展,有时需要对用户之前的HTTP通信状态进行保存,比如执行一次登陆操作,在30分钟内所有的请求都不需要再次登陆。于是引入了Cookie技术。
Cookie会根据从服务端发送的响应报文内的一个叫做Set-Cookie的首部字段信息,通知客户端保存Cookie。当下次客户端再往该服务器发送请求时,客户端会自动在请求报文中加入Cookie值后发送出去。
服务端发现客户端发送过来的Cookie后,会去检查究竟是从哪一个客户端发来的连接请求,然后对比服务器上的记录(Session),最后得到之前的状态信息。
HTTP请求格式
HTTP请求格式主要有四部分组成,分别是:请求行、请求头、空行、消息体,每部分内容占一行
// 请求行:请求行是请求消息的第一行,由三部分组成:分别是请求方法(GET/POST/DELETE/PUT/HEAD)、请求资源的URI路径、HTTP的版本号
<status-line>
// 请求头:请求头中的信息有和缓存相关的头(Cache-Control,If-Modified-Since)、客户端身份信息(User-Agent)等等。
<general-headers>
<response-headers>
<entity-headers>
<empty-line>
// 消息体:请求体是客户端发给服务端的请求数据,这部分数据并不是每个请求必须的。
[<message-body>]
HTTP响应格式
服务器接收处理完请求后返回一个HTTP相应消息给客户端。HTTP响应消息的格式包括:状态行、响应头、空行、消息体。每部分内容占一行。
// 状态行:状态行位于相应消息的第一行,有HTTP协议版本号,状态码和状态说明三部分构成。
<status-line>
// 响应头:响应头是服务器传递给客户端用于说明服务器的一些信息,以及将来继续访问该资源时的策略。
<general-headers>
<response-headers>
<entity-headers>
<empty-line>
// 响应体:响应体是服务端返回给客户端的HTML文本内容,或者其他格式的数据,比如:视频流、图片或者音频数据。
[<message-body>]
HTTP请求方法
HTTP/1.1协议中共定义了八种方法(也叫“动作”)来以不同方式操作指定的资源:
方法 | 作用 |
---|---|
GET | 向指定的资源发出“显示”请求。 |
POST | 向指定资源提交数据,请求服务器进行处理 |
PUT | 向指定资源位置上传其最新内容 |
HEAD | 获得报文首部,不返回报文主体部分 |
DELETE | 请求服务器删除Request-URI所标识的资源 |
TRACE | 回显服务器收到的请求,主要用于测试或诊断 |
OPTIONS | 使服务器传回该资源所支持的所有HTTP请求方法 |
CONNECT | HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器,在通信时建立隧道 |
GET和POST的区别:
使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中。
使用POST方法,数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。
举一个通俗栗子吧,在微信这个场景里,GET的语义会被用在「看看我的近半年的朋友圈」这样的场景,而POST的语义会被用在「发照片、评论、点赞」这样的场景中。
HTTP状态码
状态码的作用是当客户端向服务端发送请求后,服务端返回处理结果的状态。因为客户端需要知道服务端返回的是有效的还是错误的数据,如果是错误的数据,是客户端的问题,还是服务端的问题。
状态码 | 类别 | 原因短语 |
---|---|---|
1XX | 信息性状态码 | 请求正在处理中 |
2XX | Success | 正常处理完毕 |
3XX | Redirection | 需要进行附加操作才算完成请求 |
4XX | Client Error | 客户端发送的请求数据问题 |
5XX | Server Error | 服务端处理请求时出错 |
这里面最需要关注的是4XX和5XX。
4XX, 表明了服务器上无法找到请求的资源,而服务器本身是正常工作的。
5XX, 表明服务器端在执行请求时发生了错误,此时服务器并没有正常工作。