优先级队列和堆

优先级队列

优先级队列：包含优先级元素的集合，这个集合允许插入任意的元素，并允许删除拥有最高优先级的元素。当一个元素被插入优先级队列中时，用户可以通过提供一个关联键来为该元素赋予一定的优先级。键值最小的元素就是下一个从队列中移除的元素。

堆

当使用一个未排序列表来存储元组时，我们能够以O(1)的时间复杂度来实现插入，但是查找或者移除一个具有最小键值的元组则需要时间复杂度为O(n)的循环操作来遍历整个元组集合。相对应的，如果使用一个已排序列表实现的优先级队列，则可以以O(1)的时间复杂度查找或者移除具有最小键值的元组，但是向队列追加一个新的元素就需要O(n)的时间复来重新存储这个排序列表的序列

堆可以给出一个更加有效的优先级队列的实现。允许我们以对数时间复杂度来实现插入和删除操作。改善的基本方式是使用二叉树的数据结构来在元素是完全无序和完全拍好序之间取得折中

最小堆中对于除了根的每个位置p，p的值大于或等于p的父节点的值。T中从根到叶子的路径上的值是以非递减的顺序排列的。最小的值总是在堆顶

堆是一棵二叉树，在它的节点上存储了集合中的元组并且满足两个附加的属性：关系属性以存储键的形式在T中定义；结构属性以树T自身形状的方式定义。

为了使T的高度尽可能小，我们要求堆T必须使是完全二叉树。

完全二叉树：一个高度为h的堆T是完全二叉树，那么T的0，1，2，...，h-1层上有可能达到节点数的最大值，并且剩余的节点在h级尽可能保持在最左的位置

命题：堆T有n个元组，则它的高度h=[log n]

如果能以与堆的高度成比例的时间执行更新操作，那么这些操作将在对数级的时间内完成。

一、插入

新节点被放在树底层最右节点相邻的位置，除非位置p是树T的根节点，否则我们将对p位置上的值与p的父节点q的值进行比较。如果 $k_p>k_q$ 则算法终止。否则我们需要重新调整树。通过调换存储在p和q的值来实现。交换之后可能仍不满足堆的要求，需要在树T重复以上操作。这种操作被称作向上冒泡

二、移除最小值

最小值在T的根节点上，但是不能简单删除根节点，否则会产生两棵不相连通的子树。所以我们删除堆T最后位置p上的叶子节点来确保堆满足完全二叉树属性，即最底层最靠右的位置，为了保存最后位置p上的值，我们把其复制到根节点。此时p变为根节点。

如果满足堆的条件则算法终止，如果不满足，则考虑：

1)如果p没有右子节点，令c为p的左子节点

2)否则令c为p具有较小值的子节点

如果 $k_p<k_c$ ，则满足堆属性，算法终止，否则，交换p和c的值。然后继续向下交换，称为堆向下冒泡

三、基于数组的完全二叉树表示

基于数组的二叉树表示非常适合完全二叉树，存储在T中位置p的元素的索引等于层数f(p)，f(p)具体定义为：

如果p是T的根节点，则f(p)=0
如果p是位置q的左子节点，则f(p)=2f(q)+1
如果p是位置q的右子节点，则f(p)=2f(q)+2

通过这种实现，T的元组有落在[0,n-1]范围内相邻的索引，而T最后节点总是在索引n-1的位置上。

无论堆使用链表结构还是数组结构实现，堆数据结构都是优先级队列ADT非常有效的实现方式，与基于未排序或已排序列表的实现不同，基于堆的实现在插入和移除操作中均能快速地获得运行结果

四、自底向上构建堆

如果以一个初始为空地堆开始，在最坏情况下，连续n次调用add操作的时间复杂度是O(nlogn)。但是，如果所有值都事先给定，可以选择运行时间复杂度为O(n)的自下而上方法构建堆。

假设节点数量为n，并且n为整数， $n=2^{h+1}-1$ ，也就是说，堆是一个每层都满的完全二叉树，所以堆的高度满足 $h=log(n+1)-1$

1)构建 $(n+1)/2$ 个基本堆，每个堆中仅存储一个元组

2)将基本堆成对，连接起来并增加一个新元组来构建(n+1)/4个堆，这种堆的每个堆中存储了3个节点。新增的节点放在根部，并且很有可能需要与某一个子节点交换以保持堆的属性

3)成对连接含3个节点的堆，并增加一个新的节点，从而构建(n+1)/8个堆，每个堆存储7个节点。同时根节点可能需要向下冒泡满足堆属性

...

h+1)连接两个存储了(n-1)/2个元组的堆，并增加一个新的节点来构建最终的堆，新增的节点存储在根部同时可能需要向下冒泡来保持堆属性

自底向上构建堆比向一个初始空堆逐渐插入n个节点要更快，假设两个节点可以在O(1)时间内完成比较，则使用n个元组自底向上构建堆需要的时间复杂度为O(n)

五、python的heapq模块

该模块不提供任何优先级队列类，而是提供一些函数，这些函数把标准python列表作为堆进行管理。

六、堆排序

第一阶段，根据数组自底向上构建堆

第二阶段，依次移除堆最小值