近一年公司在努力推进全站的 HTTPS 化,作为负责应用系统的我们,在配合这个趋势的过程中,顺便也就想去搞清楚 HTTP 后面的这个 S 到底是个什么含义?有什么作用?带来了哪些影响?毕竟以前也就只是模糊的知道大概是更安全,但到底怎么变得更安全的,实际上整个细节和流程并没有掌握的特别清晰。
所以这篇关于 HTTPS 的技术总结文章,主要提供一个关于 HTTPS 中的 S 一个整体的认识。从其产生的历史背景、设计目标说起,到分析其协议设计结构、交互流程是如何实现其目标。最后结合我们自己的案例分析下其中带来的影响。
下面我们就先从其诞生之初说起吧。
历史
S 代表 Secure,所以 HTTPS 自然就是更安全的 HTTP 的意思。互联网诞生之初 SSL(Secure Sockets Layer 安全套接层)是由 Netscape 这家最早的浏览器公司设计的,主要是用于 Web 的安全传输的协议,这种协议在早期 Web 上获得了广泛的应用。后来被 IETF 标准化形成了 TLS(Transport Layer Security 传输层安全)标准,其历史如下:
1994: SSL1.0,因为存在严重的安全漏洞,未发布。
1995: SSL2.0,这个版本由于设计缺陷,很快被发现有严重漏洞,被废弃。
1996: SSL3.0,重新设计并开始流行,SSL 前三个版本都是由 Netscape 设计实现。
1999: TLS1.0,IETF 将 SSL 标准化,即 RFC 2246。
2006: TLS1.1,作为 RFC 4346 发布。
2008: TLS1.2,作为 RFC 5246 发布 。
2015: TLS1.3,尚在制定中,处于草案阶段。
如上,现在互联网世界使用最广泛的应该是 TLS1.2 标准。
目标
SSL/TLS最初的设计目标就是为了实现下面三个目的:
保密:第三方无法窃听。
完整:无法篡改。
认证:防止身份冒充。
互联网是一个开放的环境,十分复杂。网上两端通信的双方彼此都不知道谁是谁,双方如何信任、信息如何保密,如何不被篡改,这是十分复杂的问题。而且互联网本身就像有生命一般在不断进化,如何设计一个协议来应对未来可能的变化,因而这使得SSL/TLS协议的设计十分复杂。
结构
我们知道整个互联网构建于TCP/IP协议栈基础之上,在描述协议设计细节之前,我们先看看SSL/TLS协议处于该分层协议栈结构中的位置,其分层结构位置参考如下:
交互
SSL/TLS协议设计之初就考虑了互联网和安全算法生命周期的演变,所以设计了一个算法协商握手流程,允许未来随着新安全算法的诞生可以灵活的加入到协议中,这就是典型的软件可扩展性设计的范例。下面是协议握手流程:
握手的目的简单概括就是:通信双方协商出一套会话密钥,然后基于此密钥通过对称加密方式来安全通信。
Client Hello
握手交互流程,首先由 Client 端发起ClientHello请求。在这个请求中 Client 端向 Server 端提供如下信息:
SSL version : 自己支持的最高协议版本,比如 TLS1.2。
Ciphers : 支持的加密套件,比如:RSA非对称加密算法,AES对称加密算法。
Random number: Client 端随机数,将会用来生成会话密钥。
Server Hello
Server 收到ClientHello请求后需要回应一系列内容,从ServerHello到ServerHelloDone,有些服务端的实现是每条单独发送,有些服务端实现是合并到一起发送。
ServerHello
根据 Client 端的请求信息确认使用的协议版本和加密套件(Cipher Suite),和客户端一致,并生成一个 Server 端随机数,用来生成会话密钥。
Certificate
Server 端用于证明自身身份的凭证,一种由专门的数字证书认证机构(Certificate Authority 简称 CA)通过非常严格的审核之后颁发的电子证书,由 Client 端去认证 Server 端的合法身份。
ServerKeyExchange
可选的,补充生成会话密钥的信息。对于前面协商的有些加密算法若Certificate未提供足够的信息或就没有Certificate那么需要发送该消息。进一步的细节我们就不深入了,可以查看参考[1]。
CertificateRequest
可选的,Server 端需要认证 Client 端身份的请求时发送。比如,银行提供的各类 U 盾,其实就是一种 Client 证书,一般在线使用专业版网银时才需要。
ServerHelloDone
表示 Server 响应结束。
Client Finished
Client 收到 Server 回应后,首先验证 Server 的证书。如果证书不是可信机构颁布、或者证书中的域名与实际域名不一致、或者证书已经过期,就会向访问者显示一个警告,由其选择是否还要继续通信。如果证书没有问题,Client 会继续回应 Server,包括如下内容:
Certificate
Client 端响应 Server 的CertificateRequest请求。
ClientKeyExchange
Client 再生成一个随机数,又称premaster secret用于生成会话密钥的信息,并把这个随机数传递给 Server 用于 Server 生成相同的会话密钥。
CertificateVerify
用于对客户端证书提供证明,对于特定的证书需要可选发送。
ChangeCipherSpec
用于告知 Server,Client 已经切换到之前协商好的加密套件(Cipher Suite)的状态,准备使用之前协商好的加密套件和会话密钥加密数据并传输了。
Finished
Client 会使用之前协商好的加密套件和会话密钥加密一段Finished的数据传送给 Server,此数据是为了在正式传输应用数据之前对刚刚握手建立起来的加解密通道进行验证。
Server Finished
Server 在接收到客户端传过来的premaster secret数据之后,也会使用跟 Client 同样的方式生成会话密钥。一切就绪后,服务端回应如下内容:
NewSessionTicket
表示新建了一个会话票据,传递给 Client。若连接意外中断 Client 需要重建会话时,可以复用该票据,加速握手过程。
ChangeCipherSpec
告知 Client 已经切换到协商过的加密套件状态,准备使用加密套件和会话密钥加密数据并传输了。
Finished
Server 会使用之前协商好的加密套件和会话密钥加密一段Finished的数据传送给 Client,此数据是为了在正式传输应用数据之前对刚刚握手建立起来的加解密通道进行验证。
至此,整个握手阶段全部结束。接下来 Client 和 Server 进入使用会话密钥的加密通信过程。
认证
前面提及证书验证部分属于SSL/TLS协议中比较复杂的部分,我们单独用一节分析下。证书是由 CA 签发的,所以要验证证书的有效性需要去 CA 的服务器,流程如下。
在线证书状态验证采用了 OCSP(Online Certificate Status Protocol 在线证书状态协议)协议去验证。但如果按上面这个方式,那 HTTPS 就慢死了,不实用,所以有了 OCSP stapling 方式,其流程如下:
Server 端会定期去 CA 同步一份经过 CA 认证签名的证书状态检查结果并伴随ClientHello响应返回给 Client 端。因为这个结果是 CA 自己通过数字签名,Server 也无法伪造或篡改,因此 Client 可以信任这个结果,以达到减少不必要的步骤提升性能的效果。
另外,证书根据其认证类型可分为三类:
Domain Validation
DV 证书用于验证一个或多个域名的所有权,无需递交纸质文件,仅验证域名管理权,无需人工验证申请单位真实身份。
Organization Validation
OV 证书用于验证此域名由特定组织或单位所拥有的域名。申请此类证书,通过证书颁发机构审查网站企业身份和域名所有权以证明申请单位是一个合法存在的真实实体,CA 机构将在人工核实后签发证书。
Extended Validation
EV 证书是目前最高信任级别的证书。通过极其严格甚至苛刻审查网站企业身份和域名所有权,确保网站身份的真实可靠。
我们经常通过浏览器访问一些安全级别比较高的网站时,都是基于 HTTPS 协议,这时浏览器会显示一个绿色的「锁型」标记,让我们心理感到放心,比如下图所示几个例子:
招行
支付宝
GitHub
上面三个图,分别来自招商银行、支付宝和 GitHub,看出它们的证书和加密套件的区别没?其中招行和 GitHub 都是采用的 EV 证书,所以浏览器地址栏显示了企业名称,而支付宝采用的是 OV 证书因此没有。另外招行的 TLS 协议是 1.0 版本,这是一个有已知安全漏洞的版本,浏览器提示了过时的连接安全设置。而支付宝采用的加密套件被提示属于过时的(强度不是最高的,但没有已知的安全漏洞),GitHub 采用的则应该是目前最推荐的安全加密算法套件:TLS1.2(协议版本) + ECDHE_RSA(密钥协商交换) + AES_128_GCM(对称加密)。
另外,SSL/TLS协议中比较复杂的部分是关于加密套件的,这块基本属于密码学背后的数学原理部分。一般码农基本搞不懂(我也搞不懂),对于我们来说大概只需要搞清楚对称加密、非对称加密、HASH 算法的区别和时间开销。在选择密码套件时知道哪类是哪类,跟上主流的选择就行了。
案例
讲完SSL/TLS的基本原理和交互流程,就以我所在的 IM 项目为例,这里同时涉及 HTTP + S 和 TCP + S。HTTP 属于全公司一起加 S,那就加在统一的负载均衡层,也就是 HAProxy 那里,对整体应用无影响(参见下面部署结构图)。而 IM 客户端应用也可以间接通过 HTTPS 前置请求获得对服务端的认证,然后选择接入服务器建立 TCP 长连接。TCP 长连接实际只需要做加密保护,不再需要二次认证。
一开始,我们是在自己的接入应用中,基于 JDK 的 SSL 库实现的 TCP + S,但是发现在高并发压力下发现性能衰退的厉害,后来便改成了使用 Nginx 前置接入的方式。对比性能测试如下所示:
可以看出引入 SSL 后确实带来了一些性能开销,不过整体不大。
总结
至此,我们基本把 HTTPS 涉及的SSL/TLS相关的内容整体而粗浅的探讨了一番,至于更细节的一些内容,大家若有兴趣可以去看 RFC 和下面的一些参考资料。