2. 哈希
哈希算法又称为摘要算法(Digest),可以对任意一组数据进行计算,生成一个固定长度的摘要.
它有两个特点:
- 相同的输入一定得到相同的输出
- 不同的输入大概率得到不同的输出
这点和布隆过滤器有些相似.
哈希主要为了验证原始数据是否被篡改.
java中Object的hashcode()
就是一个哈希算法,hashMap就是基于hashcode定位.
两个相同的字符串永远会计算出相同的哈希,这也是为什么当我们自定义个一个对象的时候覆写equals()
时必须正确覆写hashCode()
.
1.1 哈希碰撞
因为哈希的运算原理是摘要,所以一定会产生哈希碰撞。
碰撞并不可怕,我们需要控制的是碰撞的概率,碰撞概率大小决定哈希算法的安全.
一个好的哈希算法必须满足:
- 碰撞概率低
- 不能猜测输出
如果一个哈希算法如下规律,则明显不是一个安全的哈希算法
hash("java1")="123"
hash("java2")="124"
hash("java3")="125"
常见的哈希算法有md5,sha-1,sha-2,sha-3
其中SHA-224、SHA-256、SHA-512
都是sha-2家族的一员.
sha-1和sha-2有相似的设计,sha-3是sha-3竞赛获胜算法,与前两代sha算法无关.
算法 | 输出长度(位) |
---|---|
MD5 | 128bits |
SHA-1 | 160bits |
SHA-256 | 256bits |
SHA-512 | 512bits |
MD5因为输出长度较短,短时间内破解是可能的,目前已经不推荐使用(王小云-2004碰撞新方法[1])
sha-1(google-2017产生碰撞的pdf[2]在安全要求较高的应用上也逐步被淘汰.
Java标准库提供了常用的哈希算法,并且有一套统一的接口,在java中可以使用如下代码生成md5:
import java.security.MessageDigest;
…
MessageDigest md = MessageDigest.getInstance("MD5");
// 可以多次调用update输入更多数据:
md.update("1234".getBytes("UTF-8"));
md.update("5678".getBytes("UTF-8"));
byte[] result = md.digest(); // 20 bytes:25d55ad283aa400af464c76d713c07ad
1.2 哈希算法的用途
1.下载软件的时候,网站常常提供md5、sha-1,供用户对比原始文件是否遭到替换篡改。
在maven的repository中的目录结构
spring-boot-2.5.6.jar spring-boot-2.5.6.pom
spring-boot-2.5.6.jar.sha1 spring-boot-2.5.6.pom.sha1
2.哈希算法的另一个重要用途是存储用户口令,密码经过hash加盐计算后,就防止
- 数据库管理员看到用户明文密码
- 数据库一旦泄漏,防止用户明文密码泄漏。
使用哈希口令时要注意彩虹表攻击。
什么是彩虹表?黑客拿到md5需要反推明文,只能暴力破解。
这样需要消耗大量的算力时间。实际可以使用一个与先计算好的常用口令对照表:
原文 md5
12345678 25d55ad283aa400af464c76d713c07ad
passw0rd bed128365216c019988915ed3add75fb
19700101 570da6d5277a646f6552b8832012f5dc
这就是彩虹表.
彩虹表的防御可以针对每个用户产生随即盐值,这样即使用户使用了常用口令,也无法反推原始口令.
1.3 java hash算法使用
上面已经介绍了在java中如何使用md5,如果要使用sha-1则只需要,替换传入的算法名称
import java.security.MessageDigest;
…
MessageDigest md = MessageDigest.getInstance("sha-1");
// 可以多次调用update输入更多数据:
md.update("1234".getBytes("UTF-8"));
md.update("5678".getBytes("UTF-8"));
byte[] result = md.digest();
Java标准库支持的所有哈希算法可以在这里[3]查到