索引堆是一个相对于普通堆更加高级的数据结构。
为什么要引入索引堆这个数据结构?
在一些场景下,堆这个数据结构不高效,或者说功能不够用:
1、如果元素是非常复杂的结构(例如是长字符串),交换这件事情会产生大量的性能消耗;
我们之前在堆中的操作有大量地交换操作,这种直接交换内存的操作,在元素占用内存比较小的时候,并没有多少性能的消耗,但是当须交换位置的元素占用内存很大的时候,此时交换两个元素的内存就不可以被忽视,于是,我们就想通过给堆中的每个元素映射一个标识,也就是我们这一节提到的索引。通过索引的操作来实现元素的操作。
通过索引可以找到我们真正存放在数组中的元素,而索引所代表数据构成一个最大堆。
举一个可能不是很恰当的生活中的例子,我们要给一组学生按照身高进行排序,我们不用把他们全部喊出来让他们从矮到高排好,我们只要让他们报上自己的身高,在纸上做他们身高的比较就可以了。
2、元素位置发生改变以后,很难再次索引到它,例如:我们想要将原来索引是 的元素的优先级提升或者下降一下,但是我们不知道原来索引是 的元素到底是谁了。
想一想为什么没有索引就不能支持 change
,因为索引不到原来的数据,因此我就不知道要 change
哪个数据,除非遍历一遍整个数组元素。
在实际应用中,我们除了有 insert
和 extract
这两个操作以外,我们数组中的元素很可能是动态变化的,在变化的过程中,如何保持最大堆的性质,这就是我们要讨论的问题。在以后章节的学习中,我们将会看到 change
操作的实际应用。
我们不交换数据,而给每个数据一个索引,索引代表的数据是堆有序的。即:我们比较的是数据,交换的是索引。
最大索引堆
索引堆的思想类似于在医院看病使用的“叫号排队”机制,想想我们去医院挂号排队的时候:我们不用真的站在那里排成一队,每个人领一个号坐在大厅里,轮到你了,你才进去看病。
最大索引堆的内部维护了一个索引数组,这个索引数组所代表的数据构成了一个最大堆;由于索引和堆中数据存在一一对应的关系,我们通过索引可以很快地定位到数据,而索引的操作又是十分方便的。
下面以最大索引堆为例,阐述相关的技巧和思想:
最大索引堆中的 data
数组是由用户定义的,用户的 insert
、extract
、和 change
操作只会插入、取出和修改 data
数组中的元素,由程序员来维护内部的索引数组,索引数组堆有序。
1、比较的时候使用 data
数组进行比较,交换的时候交换的是 indexes
数组的元素;
2、比较的是 data
的数据,交换的是 indexes
的位置。
下面,我们看一个例子,我们浪费一个元素的位置。下面这张表是数组原始的样子:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|---|
indexes |
(空着) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
data |
(空着) | 15 | 17 | 19 | 13 | 22 | 16 | 28 | 30 | 41 | 62 |
heapify
以后,data
元素不动,将 indexes
替换成它们代表的元素的值以后,就是一个最大堆:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
indexes |
10 | 9 | 5 | 7 | 8 | 6 | 2 | 4 | 3 | 1 |
data |
15 | 17 | 19 | 13 | 22 | 16 | 28 | 30 | 41 | 62 |
说明:indexes[1] = 10
,表示 data[10]
在最大堆中的位置是 1
,抽象成一般情况就是:indexes[x] = i
,表示 data[i]
在最大堆中的位置是 x
。紧扣索引数组是堆有序这一点就不难理解了。
我们可以通过对之前最大堆的数据结构的改造,修改成一个最大索引堆。首先修改构造函数,引入索引数组。
Python 代码:
class IndexMaxHeap:
def __init__(self, capacity):
self.data = [None for _ in range(capacity + 1)]
# 初值设置为 0 ,表示该位置还没有放置元素
self.indexes = [0 for _ in range(capacity + 1)]
self.count = 0
self.capacity = capacity
其次修改 insert
方法:这里的 insert
虽然指定了索引,但是一定是在 data
数组的最后添加数据。我们插入一个元素的时候,同时要指定这个元素的索引 i
,这里要注意:传入的 i
对用户而言是从 开始的,因此在底层发生操作之前,得先加 。
Python 代码:
# 此时 insert 要给一个索引位置
def insert(self, i, item):
if self.count + 1 > self.capacity:
raise Exception('堆的容量不够了')
i += 1
self.data[i] = item
# 这一步很关键,在内部索引数组的最后设置索引数组的索引
self.indexes[self.count + 1] = i
self.count += 1
self.__shift_up(self.count)
shift_up
方法也要修改:这里就是我们上面说的那一点:比较的是 data
的数据,交换的是 indexes
的位置。
Python 代码:
def __shift_up(self, k):
# 比较的时候,上面套一层 indexes,交换的是 indexes
while k > 1 and self.data[self.indexes[k // 2]] < self.data[self.indexes[k]]:
self.indexes[k // 2], self.indexes[k] = self.indexes[k], self.indexes[k // 2]
k //= 2
然后修改 extract_max
方法:
Python 代码:
def extract_max(self):
if self.count == 0:
raise Exception('堆里没有可以取出的元素')
# 里面套一层 indexes
ret = self.data[self.indexes[1]]
# 交换的是索引
self.indexes[1], self.indexes[self.count] = self.indexes[self.count], self.indexes[1]
self.count -= 1
self.__shift_down(1)
return ret
Python 代码:
def __shift_down(self, k):
while 2 * k <= self.count:
j = 2 * k
# 比较的是 data ,交换的是 indexes
if j + 1 <= self.count and self.data[self.indexes[j + 1]] > self.data[self.indexes[j]]:
j = j + 1
if self.data[self.indexes[k]] >= self.data[self.indexes[j]]:
break
self.indexes[k], self.indexes[j] = self.indexes[j], self.indexes[k]
k = j
最后实现 change
方法:为了维持堆的性质,我们应当尝试向上挪一下 shift up
,向下挪一下 shift down
。关键在于找到用户认为的那个数据,在索引数组中是第几位,针对这个位置进行下沉和上移,即找到一个 j
满足:indexes[j] = i
,j
表示 data[i]
在堆中的位置,之后 shift up(j)
,然后 shift down(j)
。还是紧扣那一点:比较的是 data
,交换的是 indexes
。
Python 代码:
def change(self, i, new_item):
# 把用户视角改成内部索引
i += 1
self.data[i] = new_item
# 重点:下面这一步是找原来数组中索引是 i 的元素
# 在索引数组中的索引是几,这是一个唯一值,找到即返回
# 优化:可以引入反向查找技术优化
for j in range(1, self.count + 1):
if self.indexes[j] == i:
self.__shift_down(j)
self.__shift_up(j)
return
说明: change
这个函数是可以进行优化的,通过引入反向查找数组来进行优化。反向查找的作用,就是帮助我们寻找原来索引的位置,在最大堆中是几。这个操作也叫“反向查找”,是一个基础且常见的技巧。
索引堆的优化:反向查找
我们引入了反向查找表。这一节的内容和思想很重要,要多看。reverse[i]
表示索引 i
在 indexes
(堆)中的位置。引入 reveres
数组的意义是,可以在执行 change
这个方法的时候,可以通过 时间复杂度查询到用户认为索引是 i
的元素,在索引数组组成的堆中的索引是几。
注意:为 reverse
数组赋初始值, 有特殊的含义:reverse[i] = 0
表示 data[i]
未赋值。
我们在捋一遍:引入反向查找是为了“找到 indexes
数组中原来索引是 i
的元素的位置”,即 reverse[i] = j
表示 data[i]
在索引堆中的位置是 j
。
通过引入反向查找数组,实现反向查找 indexes
数组中,原来为第 i
号的那个元素排在了 indexes
数组的第几位,通过对 reverse
数组的维护,使得 change
操作时间复杂度降到了 。
reverse[i]
表示原来第 i
个数在 indexes
数组中的位置。
根据 reverse
数组反向查找的意义,我们很容易得到:如果 indexes[i] = j
,那么 reveres[j] = i
,可以看出来,“反向查找”有点“反函数”的意思。
把 indexes[i] = j
代入 reveres[j] = i
,得 reveres[index[i]] = i
;
把 reveres[j] = i
代入 indexes[i] = j
,得 indexes[reveres[j]] = j
。
这也就是“反函数的反函数是自己”。利用上述两个性质可以实现反向查找。
注意: reveres
数组的概念其实并不难理解,大家只要把 reveres
这个数组自己填一下就会非常清楚了。
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
data |
15 | 17 | 19 | 13 | 22 | 16 | 28 | 30 | 41 | 62 |
indexes |
10 | 9 | 5 | 7 | 8 | 6 | 2 | 4 | 3 | 1 |
reverse |
10 | 7 | 9 | 8 | 3 | 6 | 4 | 5 | 2 | 1 |
说明:indexes[1] = 10
,表示使用者认为的第 号数据,在 indexes
数组中的索引是 ,故 reverse[10] = 1
;
indexes[2] = 9
,表示使用者认为的第 号数据,在 indexes
数组中的索引是 ,故 reverse[9] = 2
;
indexes[3] = 5
,表示使用者认为的第 号数据,在 indexes
数组中的索引是 ,故 reverse[5] = 3
;
因此,reverse
数组的作用就是:通过使用者认为的索引编号,快速找到它在 indexes
数组形成的堆中的位置。
维护reverse
数组要注意的事项:在 indexes
数组交换位置的时候,reverse
数组也要同步交换。
下面我们来分析一下 indexes
数组如果交换了位置,reverse
数组要如何交换。
假如要交换 indexes
数组 3
和 4
的位置,由于此时 indexes[3] = 7
,indexes[4] = 5
,为了保证 reverse
数组的正确性,(我们暂时不去看表),就应该使得 reverse[7] = 3
,reverse[5] = 4
。
此时再去看表, reverse[7] = 4
,reverse[5] = 3
。怎么交换的,就很清楚了。reverse
数组是 indexes
数组映射以后的两个值交换。
索引堆的应用
实现多路归并排序
这部分的知识我是在参考资料1(《算法》(第4版)P204)中看到的。在这里做一个笔记。索引堆只存了 3 个元素,索引堆不仅仅把我们要的那个数据拿出来了,并且还给出了这个数据在使用者眼里的索引的位置。
图论中使用索引堆找到最小生成树
本文源代码
参考资料
1、图书《算法》(第4版), Algorithms Fourth Edition,作者:[美] Robert Sedgewick,[美] Kevin Wayne 著,谢路云 译,图书配套网站
2、慕课网 liuyubobobo 老师《算法与数据结构》课程以及对应的 GitHub 代码仓库
3、慕课网 liuyubobobo 老师《看得见的算法》课程以及对应的 GitHub 代码仓库。
4、【多说两句】关于索引堆中的索引和数据
https://coding.imooc.com/learn/questiondetail/4945.html。
(本节完)