区块链中的哈希函数

哈希函数是一种对信息进行“摘要”的方法，输入任意长度的一串二进制数，函数会生成一个固定长度的二进制数，作为前者“摘要”。

哈希并不追求它的“摘要”能保留多少原来信息的内容，这个词的英文本意就是“把东西切碎”、“把事情弄的一团糟”，它会把数据切碎、弄乱。但是哈希不包含随机性，保证每次相同的信息生成的摘要都是严格一样。

区块链使用的哈希算法，还要进一步满足三个“密码学”的特性：

首先，必须很难制造哈希碰撞。如果两个信息，他们的哈希值完全一样，就叫“哈希碰撞”。因为某种哈希算法的哈希值长度是固定的，也就是说它可能的取值范围是有限的，理论上总有不同的值会映射到相同的哈希值上。当然出现这种情况的概率很低，一般情况下可以忽略不计。但是我们要防止有人刻意制造哈希碰撞的情况，对区块链的安全性造成破坏，即所谓的“碰撞攻击”，保证没有什么高效的方法人为去制造碰撞。

像MD5、sha-1这些哈希函数，人们一度认为是满足这项条件的，但是后来有研究者尽然找到了破解方法，有可能在有限的成本下人为制造哈希碰撞。所以在像比特币，使用的就是sha-256这样的算法，目前还没有发现对它进行碰撞攻击的方法。

其次，这种算法必须是单向的，即从初始数据算出哈希值可以很快，但是反过来根据一个哈希值，没法算出一个它对应的输入数据。当然你可以一个个去试，但对于无限大的分布均匀的输入空间，成功的可能性可以忽略不计。

第三，puzzle friendly。算出来的特征、范围事前不可预测，对输入数据作任何微小改变，都会使得到的哈希值和原来完全不一样，两个结果之间看不出任何联系。

哈希函数在区块链中使用很多。以比特币为例，它每个区块的区块头中，都要放一个父区块头哈希值，另外其中的Merkle值、Nonce 随机数，都使用哈希函数生成，以来上述的哈希算法特性发挥作用。

比如“父区块头哈希值”，每次生成一个新的区块时，都要按上一个区块的区块头里信息生成一个哈希值，放在新区块的“父区块头哈希值”里面，比特币的区块之所以能组成一个“链”，就是通过这个值关联起来的。在这里哈希算法的特性保证了区块链的不可篡改性。因为改了之前区块的数据，区块头会不一样（用到那个merkle值的特性），下一个区块的这个哈希值不可避免的会变。那么能不能凑一组数据和之前那次生成的哈希值一样呢？但这相当于要人为制造一次“哈希碰撞”，上述第一个密码学要求的特性堵上了这条路。

区块头中的Merkle值也是由这个区块中所有交易数据（在区块体中）通过哈希算法构造出来的，方法是通过两两组合取哈希值，构成一个“Merkle”树，把树的最上面根节点值存到区块头里，即Merkle值。一个区块包含的交易数据可以有很多，很占空间，一般普通的节点不会存这些数据，因为“Merkle”树的特性使得通过根哈希值就可以检测树中任何部位的修改。另外，在比特币交易时，也可以通过Merkle proof的方法（给出交易所在路径上另一个分支的各个hash值），给交易对方验证转账是否完成。

另外，比特币所谓的“挖矿”，本质上也是一个反复计算哈希值的过程。比特币的协议规定，挖矿的矿工必须给新的区块找到一个4字节的nonce,使得整个区块头的哈希值小于某个值（也可以表述成前面多少位必须是0）。这叫做工作量证明（POW），因为凑这个nonce没有规律可循，只能一遍遍用不同的随机数去试。因为哈希puzzle friendly特性，保证了这种计算没有捷径可走，就看谁提供的算力更多。

区块链中的哈希函数

推荐阅读更多精彩内容