哈希函数是一种对信息进行“摘要”的方法,输入任意长度的一串二进制数,函数会生成一个固定长度的二进制数,作为前者“摘要”。
哈希并不追求它的“摘要”能保留多少原来信息的内容,这个词的英文本意就是“把东西切碎”、“把事情弄的一团糟”,它会把数据切碎、弄乱。 但是哈希不包含随机性,保证每次相同的信息生成的摘要都是严格一样。
区块链使用的哈希算法,还要进一步满足三个“密码学”的特性:
首先,必须很难制造哈希碰撞。如果两个信息,他们的哈希值完全一样,就叫“哈希碰撞”。因为某种哈希算法的哈希值长度是固定的,也就是说它可能的取值范围是有限的,理论上总有不同的值会映射到相同的哈希值上。当然出现这种情况的概率很低,一般情况下可以忽略不计。但是我们要防止有人刻意制造哈希碰撞的情况,对区块链的安全性造成破坏,即所谓的“碰撞攻击”,保证没有什么高效的方法人为去制造碰撞。
像MD5、sha-1这些哈希函数,人们一度认为是满足这项条件的,但是后来有研究者尽然找到了破解方法,有可能在有限的成本下人为制造哈希碰撞。所以在像比特币,使用的就是sha-256这样的算法,目前还没有发现对它进行碰撞攻击的方法。
其次,这种算法必须是单向的,即从初始数据算出哈希值可以很快,但是反过来根据一个哈希值,没法算出一个它对应的输入数据。当然你可以一个个去试,但对于无限大的分布均匀的输入空间,成功的可能性可以忽略不计。
第三,puzzle friendly。算出来的特征、范围事前不可预测 ,对输入数据作任何微小改变,都会使得到的哈希值和原来完全不一样,两个结果之间看不出任何联系。
哈希函数在区块链中使用很多。以比特币为例,它每个区块的区块头中,都要放一个父区块头哈希值,另外其中的Merkle值、Nonce 随机数,都使用哈希函数生成,以来上述的哈希算法特性发挥作用。
比如“父区块头哈希值”,每次生成一个新的区块时,都要按上一个区块 的区块头里信息生成一个哈希值,放在新区块的“父区块头哈希值”里面,比特币的区块之所以能组成一个“链”,就是通过这个值关联起来的。在这里哈希算法的特性保证了区块链的不可篡改性。因为改了之前区块的数据,区块头会不一样(用到那个merkle值的特性),下一个区块的这个哈希值不可避免的会变。那么能不能凑一组数据和之前那次生成的哈希值一样呢?但这相当于要人为制造一次“哈希碰撞”,上述第一个密码学要求的特性堵上了这条路。
区块头中的Merkle值也是由这个区块中所有交易数据(在区块体中)通过哈希算法构造出来的,方法是通过两两组合取哈希值,构成一个“Merkle”树,把树的最上面根节点值存到区块头里,即Merkle值。一个区块包含的交易数据可以有很多,很占空间,一般普通的节点不会存这些数据,因为“Merkle”树的特性使得通过根哈希值就可以检测树中任何部位的修改。另外,在比特币交易时,也可以通过Merkle proof的方法(给出交易所在路径上另一个分支的各个hash值),给交易对方验证转账是否完成。
另外,比特币所谓的“挖矿”,本质上也是一个反复计算哈希值的过程。比特币的协议规定,挖矿的矿工必须给新的区块找到一个4字节的nonce,使得整个区块头的哈希值小于某个值(也可以表述成前面多少位必须是0)。这叫做工作量证明(POW),因为凑这个nonce没有规律可循,只能一遍遍用不同的随机数去试。因为哈希puzzle friendly特性,保证了这种计算没有捷径可走,就看谁提供的算力更多。