1. HTTP是什么?
HTTP(超文本传输协议)是一种应用层协议,基于TCP/IP通信协议来传递数据(html文件、图片等等)
HTTP协议用于客户端和服务端之前的通信,通过请求和相应的交互达成通信(协议规定,请求从客户端出发,最后服务器端响应请求并返回数据)。
HTTP是一种无状态协议,即协议自身不对请求和响应之间的通信状态进行保存。
TCP/IP协议族
咱们通常使用的网络是在TCP/IP协议族的基础上运作的,而http属于它内部的一个子集,所以我们先来了解一下TCP/IP协议族。
什么是TCP/IP协议族呢?
计算机与网络设备之间进行互相通信,双方就必须基于一种相同的规则,否则就无法进行通信,我们把这种规则或者标准称之为协议,把与互联网相关的各种协议集合起来总称为TCP/IP协议族。
与HTTP协议有密切关系的其他协议:
IP协议,TCP协议,DNS协议
IP协议: IP协议的作用是把各种数据包准确的传递给对方,其实最重要的两个条件是IP地址和MAC地址。IP地址指明了节点被分配到的具体地址,MAC地址是指网卡所属的固定地址。IP地址可以和MAC地址进行配对,IP地址可变,但MAC地址基本上不会更改。
TCP协议:
TCP协议位于传输层,提供可靠的字节流服务。
所谓的字节流服务是指,为了方便传输,把大块数据分割成以报文段为单位的数据包进行管理。
为了准确无误的将数据送达目标处,TCP协议采用了三次握手的策略。
什么是三次握手??
发送端首先发送一个带有SYN标记的数据包给对方,接收端收到以后,回传一个带有SYN/ACK标志的数据包以示传达确认信息。最后,发送端再回传一个带有ACK标志的数据包,代表“握手”结束。
DNS服务:
DNS服务是和HTTP协议一样位于应用层的协议。它提供域名到IP地址之间的解析服务。
URI和URL
URI的全称是统一资源标识符,就是用来标识互联网资源,这里的资源可以是文档、图像或服务等等。
URI的格式:
URL标识资源的地址(互联网所处的位置)。
2.告知服务器意图的HTTP方法:
- GET:用来请求访问已被URI识别的资源,指定的资源经服务器解析后返回响应内容
- POST:传输实体主体
- PUT:传输文件,由于HTTP/1.1的PUT方法自身不带验证机制,任何人都可以上传文件,存在安全性问题。若配合web应用程序的验证机制,或架构设计采用REST标砖的同类Web网站,就可能会开放使用PUT方法。
- HEAD:获取报文首部,和GET方法一样,只是不返回报文主体部分,用于确认URI的有效性及资源更新的日期时间等。
- DELETE: 删除文件,和PUT方法一样不带验证机制。
- OPTIONS: 用来查询针对请求URI指定的资源支持的方法。
- TRACE: 追踪路径,客户端发送请求时,在Max-Forwards首部字段中填入数值,每经过一个服务器就将该数字减1,当数值刚好减到0时,就停止继续传输,最后接收到请求的服务器端则返回状态码200 OK的响应,以此方式来追踪发送出去的请求是怎样被加工修改/篡改的。
- CONNECT: 要求用隧道协议连接代理,CONNECT方法在与代理服务器通信时建立隧道,实现用隧道协议进行TCP通信。主要使用SSL和TLS协议把通信内容经网络隧道传输。
持久连接节省通信量
在HTTP早起版本中,每进行一次HTTP通信就要断开一次TCP连接。随着HTTP的普及,文档中包含大量图片的情况增多,如果每次请求都会造成无谓的TCP连接建立和断开,增加通信量的开销。
为解决上述问题,HTTP/1.1和HTPP/1.0想出了持久连接(也成为HTPP keep-alive),持久连接的特点:只要任意一端没有明确提出断开连接,则保持TCP连接状态
持久连接的好处在于减少了TCP连接的重复建立和断开所造成的额外开销,减轻了服务端的负载,减少开销的时间使HTTP请求和响应能够更早的结束,提高了web页面的显示速度。
HTTP/1.1中,所有的连接默认都是持久连接。
3. HTTP报文
用于HTTP协议交互的信息被称为HTTP报文,客户端发送的报文称之为请求报文,服务端响应的报文称之为响应报文。HTTP报文大致可以分为报文首部和报文主体两部分。
编码提升传输速率:
为了提高在传输过程中的速度,HTTP协议中提供了一种内容编码的功能。常见的内容编码有以下几种:
- gzip (GNU zip)
- COMPRESS(Unix 系统的标准压缩)
- deflate(zlib)
- identity(不进行编码)
分割发送的分块传输编码
在传输大量数据时,通过把数据分割成多块,能够让浏览器逐步显示页面。这种把实体主题分块的功能称为分块传输编码
发送多种数据的多部分对象集合
获取部分内容的范围请求
在实现断点续传的功能的时候,就需要使用范围请求这个字段了。eg.Range: byte = 5001 - 10000
内容协商返回最合适的内容
内容协商机制是指客户端和服务器端就响应的资源内容进行交涉,然后提供给客户端最为合适的资源。内容协商会以语言、字符集、编码方式等为基准判断响应的资源
- Accept
- Accept-Charset
- Accept-Encoding
- Accept-Language
- Content-Language
4.从服务器返回请求结果的HTTP状态码
状态码种类 | 类别 | 原因短语 |
---|---|---|
1xx | (信息性状态码) | 接收的请求正在处理 |
2xx | (成功状态码) | 请求正常处理完毕 |
3xx | (重定向状态码) | 需要进行附加操作以完成请求 |
4xx | (客户端错误状态码) | 服务器无法处理请求 |
5xx | (服务器错误状态码) | 服务器处理请求出错 |
5. HTTP报文首部
HTTP报文首部结构
4种HTTP首部字段类型:
- 通用首部字段: 请求报文和响应报文都会使用的首部
- 请求首部字段: 从客户端向服务器发送请求报文时使用的首部,补充了请求的附加内容、客户端信息、响应内容相关优先级等信息
- 响应首部字段: 从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息。
- 实体首部字段:针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息。
3.首部字段列表
通用首部字段
首部字段名 | 说明 |
---|---|
Cache-Control | 控制缓存的行为 |
Connection | 逐跳首部、连接的管理 |
Date | 创建报文的日期时间 |
Pragma | 报文指令 |
Trailer | 报文末端的首部一览 |
Transfer-Encoding | 指定报文猪蹄的传输编码方式 |
Upgrade | 升级为其他协议 |
Via | 代理服务器的相关信息 |
Warning | 错误通知 |
请求首部字段
首部字段名 | 说明 |
---|---|
Accept | 用户代理可处理的媒体类型 |
Accept-Charset | 优先的字符集 |
Accept-Encoding | 优先的内容编码 |
Accept-Language | 优先的语言 |
Authorization | Web认证信息 |
Expect | 期待服务器的特定行为 |
From | 用户的电子邮箱地址 |
Host | 请求资源所在服务器 |
If-Match | 比较实体标记(Etag) |
If-Modified-Since | 比较资源的更新时间 |
If-None-Match | 比较实体标记(与If-Match相反) |
If-Range | 资源未更新时发送实体Byte的范围请求 |
If-Unmodified-Since | 比较资源的更新时间(与If-Modified-Since相反) |
Max-Forwards | 最大传输逐跳数 |
Proxy-Authorization | 代理服务器要求客户端的认证信息 |
Range | 实体的字节范围请求 |
Referer | 对请求中URI的原始获取方 |
TE | 传输编码的优先级 |
User-Agent | HTTP客户端程序的信息 |
响应首部字段
首部字段名 | 说明 |
---|---|
Accept-Ranges | 是否接受字节范围请求 |
Age | 推算资源创建经过时间 |
Etag | 资源的匹配信息 |
Location | 令客户端重定向至指定URI |
Proxy-Authenticate | 代理服务器要求客户端的认证信息 |
Retry-After | 对再次发起请求的时机要求 |
Server | HTTP服务器的安装信息 |
Vary | 代理服务器缓存的管理信息 |
WWW-Authenticate | 服务器对客户端的认证信息 |
实体首部字段
首部字段名 | 说明 |
---|---|
Allow | 资源可支持的HTTP方法 |
Content-Encoding | 实体主体使用的编码方式 |
Content-Language | 实体主体的自然语言 |
Content-Length | 实体主体的大小(单位:字节) |
Content-Location | 替代对应资源的URI |
Content-MD5 | 实体主体的报文摘要 |
Content-Range | 实体主体的位置范围 |
Content-Type | 实体主体的媒体类型 |
Expires | 实体主体过期的日期时间 |
Last-Modified | 资源的最后修改日期时间 |
Cache-Control
该指令的参数是可多选的,多个指令之间通过‘,’分隔。
Cache-Control:private,max-age=0,no-cache
Expires
缓存服务器在接收到含有Expires的响应后,会以缓存来应答请求,在Expires字段值指定的时间之前,响应的副本会一直被保存。当超过指定时间后,则需要向源服务器发起请求。
max-age优先级高于Expires
Connection
控制代理不再转发
connection:不再转发的首部字段名
管理持久连接
connection: close/keep-alive
Date: 表明创建HTTP报文的日期和时间
Pragma
Pragma是http/1.1之前的历史遗留字段,仅作为与http/1.0的向后兼容而定义,规范定义的形式唯一,如下
pragma:no-cache
Upgrade
用于检测HTTP协议及其他协议是否可使用更高的版本进行通信。其参数值可以用来指定一个完全不同的通信协议。
发送端
GET /index.html HTTP/1.1
Upgrade: TLS/1.0
Connection: Upgrade
服务器端
HTTP/1.1 101 Switching Protocols
Upgrade: TLS/1.0,HTTP/1.1
Connection: Upgrade
Upgrade首部字段产生作用的Upgrade对象仅限于客户端和相邻服务器,所以要与connection属性搭配使用。
If-Match : 只有当If-Match的字段值与Etag值匹配一致时,服务器才会接受请求
If-None-Match:只有在If-None-Match的字段值与Etag值不一致时,可处理该请求,与If-Match相反
If-Modified-Since:如果在If-Modified-Since字段指定的日期时间后,资源发生了更新,服务器会接受请求
If-Unmodified-Since:如果在If-Modified-Since字段指定的日期时间后,资源未更新的情况下,服务器才能处理请求
ETag
用来标识实体的唯一值。ETag分为强ETag和弱ETag。
强ETag值:不论实体发生多么细微的变化都会改变其值
弱ETag值:只有资源发生了根本变化,产生差异时才会改变ETag值,并且会再字段值最开始出附加W/
ETag: W/"errds-123456"
Last-Modified:指明资源最终修改的时间。
6. HTTP缺点
- 通信使用明文(不加密),内容可能会被窃听
- 不验证通信方的身份,因此有可能遭遇伪装
- 无法证明报文的完整性
HTTP协议中没有加密机制,但可以通过和SSL(Secure Socket Layer,安全套接层)或TLS (Transport Layer Security, 安全传输层协议)的组合使用,加密HTTP的通信内容。
用SSL简历安全通信线路之后,就可以在这条线路上进行HTTP通信了。与SSL组合使用的HTTP被称为HTTPS.
HTTP+加密+认证+完整性保护 = HTTPS
虽然HTTPS很可靠,但是也存在一些问题,那就是当使用SSL时,它的处理速度会变慢。一种是指通信变慢。另一种是指由于大量消耗CUP及内存等资源,导致处理速度变慢。因此如果是非敏感信息则使用HTTP通信,只有在包含个人信息等敏感数据时,才利用HTTPS加密通信