Merkle Patricia Tree

Patricia Tree

原文🔗:Patricia Tree
翻译:Jisen

Merkle Patricia tries提供一个密码认证的数据结构,可用于存储所有(键,值)绑定,虽然在本文的范围内,我们将键和值限制为字符串(要删除此限制,只需使用任何序列化格式其他数据类型)。它们是完全确定性的,这意味着具有相同(键值)绑定的Patricia trie确保与最后一个字节完全相同,因此具有相同的根散列,提供了O(log(n))插入、查找和删除的效率,并且比诸如红黑树等更复杂的基于比较的替代方法更容易理解和编码。

序言:Basic Radix Tries

在一个basic radix trie中,每个节点看起来如下:

[i0, i1 ... in, value]

其中i0 ... in表示字母的符号(通常是二进制或十六进制),value是节点处的终端值,并且i0 ... in slots中的值是NULL或指向(在本例中为其他节点的散列)的值。这形成了一个基本(key, value)存储; 例如,如果您对当前映射dog到trie中的值感兴趣,则应先将其转换dog为字母表中的字母(given 64 6f 67),然后沿着该路径追溯到trie,直到读完该路径的终端值。也就是说,您首先要查找key/value数据库中的根哈希以查找trie的根节点(基本上是其他节点的键的数组),请使用索引处的值6作为一个关键字(并在key/value数据库中查找它)使节点向下一级,然后选择索引4来查找下一个值,然后选择该索引的索引6,依此类推,直到你遵循路径:root -> 6 -> 4 -> 6 -> 15 -> 6 -> 7,你查找你拥有的节点的值并返回结果。

请注意,查看“trie”中的内容与底层key/value “数据库”之间存在差异。它们都定义了key/values的排列,但底层数据库可以对键进行传统的1步查找,而在查找树中的键时需要多个底层数据库查找才能达到上述最终值。为了消除歧义,让我们把后者称为a path

radix tries的更新和删除操作很简单,可以大致如下定义:

def update(node,path,value):
    if path == '':
        curnode = db.get(node) if node else [ NULL ] * 17
        newnode = curnode.copy()
        newnode[-1] = value
    else:
        curnode = db.get(node) if node else [ NULL ] * 17
        newnode = curnode.copy()
        newindex = update(curnode[path[0]],path[1:],value)
        newnode[path[0]] = newindex
    db.put(hash(newnode),newnode)
    return hash(newnode)

def delete(node,path):
    if node is NULL:
        return NULL
    else:
        curnode = db.get(node)
        newnode = curnode.copy()
        if path == '':
            newnode[-1] = NULL
        else: 
            newindex = delete(curnode[path[0]],path[1:])
            newnode[path[0]] = newindex

        if len(filter(x -> x is not NULL, newnode)) == 0:
            return NULL
        else:
            db.put(hash(newnode),newnode)
            return hash(newnode)

radix trie的“Merkle”部分出现这样一个事实,即一个节点的确定性密码散列用作指向该节点的指针(对于key/value数据库中的每个查找key == sha3(rlp(value)),而不是某些32位或64位内存位置,这可能发生在用C实现的更传统的trie中。这为数据结构提供了一种形式的密码认证;如果给定的trie根hash是公开的,那么任何人都可以提供一个证明,通过提供节点上升的每一步,攻击者不可能提供(path, value)对的证明,因为根散列最终基于下面的所有散列,所以任何修改都会改变根散列。

如上所述一次遍历1 nibble路径时,大多数节点包含17个元素的数组。对于路径中的下一个十六进制字符(nibble)所保持的每个可能值,都有1索引,并且在路径已经完全遍历的情况下,1保持最终目标值。这些17个元素的数组节点被称为branch节点。

主要说明:Merkle Patricia Trie

然而,radix tries有一个主要限制:它们效率低下。如果你想在路径所在的地方存储一个(path,value)绑定(在ethereum状态的情况下),长度为64个字符(nibbles bytes32字节数),则需要超过一千字节的额外空间来存储一层的每个字符,每次查找或删除将采取完整的64个步骤。这里介绍的Patricia trie解决了这个问题。

优化

Merkle Patricia tries通过为数据结构增加一些额外的复杂性来解决低效率问题。Merkle Patricia trie中的节点是以下之一:

  1. NULL(表示为空字符串)
  2. branch 17个item的节点 [ v0 ... v15, vt ]
  3. leaf 2个item的节点 [ encodedPath, value ]
  4. extension 2个item的节点 [ encodedPath, key ]

对于64个字符的路径,在遍历该trie的前几层级后,不可避免地会到达一个至少部分路径不存在发散路径的节点。要求这样的节点除了目标索引(路径中的下一个nibble)之外,在每个索引中都有空值(对于16个十六进制字符中的每一个都是一个值),这将是天真的。相反,我们通过设置extension表单的节点来快速查询[encodedPath, key],其中encodedPath包含“部分路径”以跳过之前的步骤(使用下面描述的紧凑编码),并且key用于下一个数据库查找。

leaf节点的情况下,可以通过第一个nibble中的一个标志确定encodedPath,上述情况就会发生,并且跳过的“部分路径”将完成路径的全部剩余部分。在这种情况下value是目标值本身。

然而,上面的优化引入了一些模糊特性。

当以nibbles遍历路径时,我们可能会以奇数个nibbles来遍历,但因为所有数据都以bytes格式存储,所以不可能区分例如nibble 1nibble 01(两者都必须存储为<01>)。要指定奇数长度,而且部分路径的前缀是一个标志。

说明:使用可选终止符对十六进制序列进行紧凑编码

如上所述的奇数与偶数剩余部分路径长度以及叶节点与扩展节点的标记位于任何2项节点的部分路径的第一个nibble中。它们导致以下结果:

hex char    bits    |    node type partial     path length
----------------------------------------------------------
   0        0000    |       extension              even        
   1        0001    |       extension              odd         
   2        0010    |   terminating (leaf)         even        
   3        0011    |   terminating (leaf)         odd         

对于剩余的路径长度(02),另一个0“填充”nibble将始终伴随。

def compact_encode(hexarray):
    term = 1 if hexarray[-1] == 16 else 0 
    if term: hexarray = hexarray[:-1]
    oddlen = len(hexarray) % 2
    flags = 2 * term + oddlen
    if oddlen:
        hexarray = [flags] + hexarray
    else:
        hexarray = [flags] + [0] + hexarray
    // hexarray now has an even length whose first nibble is the flags.
    o = ''
    for i in range(0,len(hexarray),2):
        o += chr(16 * hexarray[i] + hexarray[i+1])
    return o

例子:

> [ 1, 2, 3, 4, 5, ...]
'11 23 45'
> [ 0, 1, 2, 3, 4, 5, ...]
'00 01 23 45'
> [ 0, f, 1, c, b, 8, 10]
'20 0f 1c b8'
> [ f, 1, c, b, 8, 10]
'3f 1c b8'

以下是在Merkle Patricia trie中获取节点的扩展代码:

def get_helper(node,path):
    if path == []: return node
    if node = '': return ''
    curnode = rlp.decode(node if len(node) < 32 else db.get(node))
    if len(curnode) == 2:
        (k2, v2) = curnode
        k2 = compact_decode(k2)
        if k2 == path[:len(k2)]:
            return get(v2, path[len(k2):])
        else:
            return ''
    elif len(curnode) == 17:
        return get_helper(curnode[path[0]],path[1:])

def get(node,path):
    path2 = []
    for i in range(len(path)):
        path2.push(int(ord(path[i]) / 16))
        path2.push(ord(path[i]) % 16)
    path2.push(16)
    return get_helper(node,path2)

示例Trie

假设我们要包含四个path/value对的trie ('do', 'verb'),('dog', 'puppy'),('doge', 'coin'),('horse', 'stallion')。

首先,我们将两个pathsvalues转换为bytes。下面,路径的实际字节表示被表示<>,虽然values仍然显示为字符串,表示''为了易于理解(它们也实际上是bytes):

<64 6f> : 'verb'
<64 6f 67> : 'puppy'
<64 6f 67 65> : 'coin'
<68 6f 72 73 65> : 'stallion'

现在,我们在底层数据库中使用以下key/value对构建这样一个trie

rootHash: [ <16>, hashA ]
hashA:    [ <>, <>, <>, <>, hashB, <>, <>, <>, hashC, <>, <>, <>, <>, <>, <>, <>, <> ]
hashC:    [ <20 6f 72 73 65>, 'stallion' ]
hashB:    [ <00 6f>, hashD ]
hashD:    [ <>, <>, <>, <>, <>, <>, hashE, <>, <>, <>, <>, <>, <>, <>, <>, <>, 'verb' ]
hashE:    [ <17>, hashF ]
hashF:    [ <>, <>, <>, <>, <>, <>, hashG, <>, <>, <>, <>, <>, <>, <>, <>, <>, 'puppy' ]
hashG:    [ <35>, 'coin' ]

当一个节点在另一个节点内被引用时,包含H(rlp.encode(x)),其中H(x) = sha3(x) if len(x) >= 32 else xrlp.encodeRLP编码函数。

请注意,更新一个trie时,如果新创建的节点的长度大于等于32,则需要将该key/value(sha3(x), x)存储在永久性查找表中。但是,如果节点短于此值,则不需要存储任何内容因为函数f(x)= x是可逆的。

在以太坊上的尝试

在Ethereum中的所有merkle尝试使用Merkle Patricia Trie

从区块头开始,这些尝试中有3个根来自3个这样的tries

  1. stateRoot
  2. transactionsRoot
  3. receiptsRoot

State Trie

有一个全局状态索引,并随着时间的推移而更新。其中,path为:sha3(ethereumAddress)value为:rlp(ethereumAccount)。更具体地说,以太坊account是一个包含4个item的数组[nonce,balance,storageRoot,codeHash]。在这一点上值得注意的是,这storageRoot是另一个patricia trie的根:

Storage Trie

Storage Trie是所有合同数据所在的地方。每个帐户都有一个单独的存储索引。这个triepath有点复杂,可以参考这个

Transactions Trie

每个区块都有单独的transactionspath在这里为:rlp(transactionIndex)transactionIndex是其开采区块内的指标。排序主要由矿工决定,因此在开采之前这些数据是未知的。区块被挖出后,transaction trie不会更新。

Receipts Trie

每个块都有自己的1Receipts triepath在这里为:rlp(transactionIndex)transactionIndex是其开采区块内的指标。从不更新。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容