HTTP诞生
1989年为知识共享而诞生的Web,提出了3项WWW构建技术:
- 标准通用标记语言设为HTML(HyperText Markup Language,超文本标记语言)
- 文档传输协议HTTP(HyperText Transfer Protocol,超文本传输协议)
- 文档定位URL(Uniform Resource Locator,统一资源定位符)
HTTP特点
- 无状态协议(不对请求和响应之间的通信状态进行保存,无法实现状态管理),所以后面引入Cookie和LocalStorage等技术。
- 请求方法有:GET(获取资源)、POST(传输实体主体)、PUT(传输文件)、HEAD(获得报文首部)、DELETE(删除文件)、OPTIONS(询问支持的方法)、TRACE(追踪路径)、CONNECT(要求用隧道协议连接代理)
- HTTP/1.1中,所有连接默认都是持久连接(keep-alive),即建立一次TCP连接后可以进行多次HTTP请求和响应
-
管线化,即可并行发送多个请求。
-
Cookie:
1)客户端发送请求报文;
2)服务器生成包含Cookie信息的响应报文(Set-Cookie字段包含sid);
3)客户端发送带Cookie信息的请求报文(Cookie字段的sid);
HTTP报文
- HTTP报文本身是由多行数据构成的字符串文本。
-
请求报文与相应报文的结构
请求行:请求的方法、请求URI、HTTP版本
状态行:表明响应结果的状态码、原因短语、HTTP版本
- 压缩传输的内容编码(gzip、compress、deflate、identity)、分割发送的分块传输编码
- MIME(Multipurpose Internet Mail Extensions,多用途因特网邮件扩展)
HTTP状态码
1) 200 OK ;请求正常处理
2) 204 No Content ;请求处理成功,但没有资源可返回
3) 206 Partial Content ; 客户端进行了范围请求,服务器成功处理
4) 301 Moved Permanently ; 永久性重定向,即请求的资源已经被分配了新的URI
5) 302 Found ; 临时重定向,即请求的资源临时被分配了新的URI
6) 303 See Other ; 表示请求对应的资源存在着另一个URI,应使用GET方法定向获取
7) 304 Not Modified ; 服务器资源未改变,可直接使用客户端未过期的缓存(与重定向无关)
8) 307 Temporary Redirect ; 临时重定向(会强制浏览器不能将POST改为GET方法)
9) 400 Bad Request ; 表示请求报文中存在语法错误
10) 401 Unauthorized ; 表明请求需要通过HTTP认证,若之前已请求过一次,则表示用户认证失败
11) 403 Forbidden ; 服务器拒绝该资源的访问
12) 404 Not Found ; 服务器无法找到请求的资源
13) 500 Internal Server Error ; 服务器发生内部错误
14) 503 Service Unavailable ; 服务器超负荷,无法处理请求
有些时候,状态码和状况会不一致
说明:301和302状态码都是重定向,但区别是301是永久重定向,302为临时重定向。若客户端将URL保存为书签,那么301就会去更新书签,而302不会去更新书签。
重定向:服务器告诉客户端,需要重新发送请求到新的URL。服务器返回302状态码时,设置响应头的Location字段。
HTTPS(HTTP over SSL,包括加密、认证、完整性保护)
- HTTP的缺点
1)通信使用明文(不加密),内容可能会被窃听;—>加密
2)不验证通信方的身份,可能遭遇伪装;—>验证身份
例子:伪装的web服务器;伪装的客户端;无访问权限的通信方;无法判定无意义请求,可能遭受DoS攻击;
3) 无法证明报文的完整性,内容可能遭遇篡改; -
加密
- 通信的加密、内容的加密
- 加密方式:对称密钥加密(共享密钥加密)、非对称密钥加密(公开密钥加密)
对称加密:加密和解密使用相同的密钥;问题:密钥如何安全到达对方;
非对称加密:一对密钥(公开密钥+私有密钥);
方式:服务器拥有一对密钥,当需要加密传输时,服务器将公开密钥分发给客户端,客户端利用公开密钥加密发送密文给服务器,服务器利用私有密钥解密;
报文+公开密钥=密文;密文+公开密钥!=报文(技术上异常困难,离散对数求值);
非对称加密相比对称加密速度慢; -
HTTPS采用混合加密机制(非对称加密+对称加密)
利用非对称加密 传输 对称加密时所需的 密钥,然后采用对称加密 传输主体;
- 如何判断服务器发来的公开密钥的真实性?
借用第三方数字认证机构(CA,Certificate Authority)
1)服务器将自己的公开密钥登录至CA,申请公钥证书
2)CA颁发公钥证书(公开密钥+CA数字签名)
3)服务器向客户端发送公钥证书
4)客户端利用浏览器内置的CA公钥验证 该公钥证书的 有效性
5)客户端使用公开密钥对报文加密后发送 - MAC(Message Authentication Code)报文摘要检测报文的完整性
- 用以确认客户端的客户端证书
用户得自行安装客户端证书,一般用于网上银行 - 补充:抓包工具:wireshark,tcpdump
HTTP缓存
-
HTTP缓存分为强制缓存和对比缓存,两类缓存规则可以同时存在,强制缓存优先级高于对比缓存。
-
强制缓存(Expires/Cache-Control)
HTTP 1.0中Expires的值为服务端返回的资源到期时间,所以要求时钟同步
HTTP1.1中使用Cache-Control
-
对比缓存(Etag / If-None-Match 或者Last-Modified / If-Modified-Since )
对比缓存生效时,状态码为304,只返回header
- Etag / If-None-Match(优先级高)
第一次请求时,服务器通过Etag告诉客户端资源的唯一标识符
再次请求时,客户端通过If-None-Match告诉服务器该资源缓存数据库中的资源标识符,服务器将其进行校验比对,若资源发生变化(资源标识符变化),则返回修改过的资源,200;若资源未被修改过,则返回304。 - Last-Modified / If-Modified-Since
第一次请求时,服务器在响应请求时,通过Last-Modified告诉浏览器资源的最后修改时间。
再次请求时,客户端通过If-Modified-Since发送资源的最后修改时间,服务器接收到后进行校验对比,若资源在该时间之后被修改过,则返回修改过的资源,200;若资源未被修改过,则返回304。
cnblog讲解
个人理解:客户端缓存数据库中的资源带有Expires的时间、Cache-Control的时间间隔、If-None-Match的资源标识符 或者 If-Modified-Since的标识时间。浏览器在请求相应资源时,分别判断资源的各个标识符,采用缓存资源或者发送相应的http头部信息给服务器端进行校验。
get与post区别
- get可被缓存
- get请求保留在浏览器历史纪录中
- get请求可被收藏为书签
- get请求不应在处理敏感数据时使用,get请求在url中发送,post请求在http消息主体中发送。
- get请求长度有限制(url的限制),post请求对数据长度没有要求
- get只能是url编码
- get参数会显示在url中
- 后退和刷新,post会被重新提交
- get是幂等的,意味着对同一URL的多个请求应该返回同样的结果。
- 对资源的增,删,改,查操作,其实都可以通过GET/POST完成,不需要用到PUT和DELETE
web安全
- 主动攻击:
1) SQL注入攻击
方式:把SQL命令插入到表单中提交或URL中的查询字符串中,以欺骗服务器执行恶意的SQL命令;
解决方法:对用户的输入进行校验、不使用管理员权限的数据库连接、机密信息加密存放;
2) OS命令注入攻击(利用web应用的漏洞); - 被动攻击:
1)跨站脚本攻击XSS
方式:在正规网站的URL查询字段中加入script标签,使客户端在浏览正规网站的同时,运行JS代码;
解决办法:对用户的输入进行校验、写到页面的内容先进行编码、用适当的方法对 HTML,JS 进行转义、将Set-Cookie设置为HttpOnly,则通过JS脚本无法读取到cookie信息;
2)跨站点请求伪造(CSRF)
方式:用户点击了正规网站和黑客网站,黑客网站向往正规网站服务器发送了请求,这个请求会携带用户本地浏览器的cookie,所以得以成功跨站点请求伪造。
解决办法:1)设置验证HTTP Referer字段,以确保请求的来源网站的合法性。2)设置token。
CSDN博客
3)HTTP首部注入(攻击者在响应首部字段内插入换行,添加任意响应首部或主体)、
4)邮件首部注入攻击
其他攻击:DoS攻击(拒绝服务攻击,向服务器发送大量请求,造成服务器资源过载)
DDoS(分布式拒绝服务攻击,常利用感染病毒的计算机作为攻击者的攻击跳板)
CSDN博客