前一篇文章在谈到Kruskal的伪代码的时候有一个判断是否有环的操作not_connected(),不少朋友想知道更多的细节,今天刚好从这里开始,随后聊一聊Kruskal算法的时间复杂度分析.
考虑一个图结构G, 任意加入一条边(u,v)判断是否在当前的树结构里增加了一个环.经典的方法是并集查找算法.
简单来说他定义了一种树结构: 每个节点都有指向自己父节点的指针, 以及自己的rank(秩,可以理解成在树里面的高度表示);
此外还有两个操作:
- union(), 给定两个节点把他们合并到一棵树;
- find(), 在树上找到给定节点的顶节点.
由此不难看出,其实这个union-find算法是不只一棵树的(否则就没有合并的说法了),因此在很多集合划分问题上,都有该算法的用武之地.
下面给出一个优化版本的代码实现,至于为什么说是优化版本,稍后会解释.
type Node struct {
key int
parent pNode
rank int
}
type pNode *Node
func find(x pNode) pNode {
for x != x.parent {
x = find(x.parent)
}
return x
}
func union(a pNode, b pNode) {
rootA := find(a)
rootB := find(b)
if rootA == rootB {
return
}
if rootA.rank > rootB.rank {
rootB.parent = rootA
} else {
rootA.parent = rootB
if rootB.rank == rootB.rank {
rootB.rank++
}
}
}
来分析一下两个操作的时间复杂度,
先看find(), 从给定节点开始向其顶节点进行回溯(👈注意这个字:b)的复杂度是多少?
父节点的rank一定大于子节点,结合union来看. 考虑多棵树的情况, rank被+1的可能只会出现在两颗顶节点rank相同的树的情况下. 举个例子, 当某个顶节点rank增加都2的时候, 一定是给他和另外一个rank=1的树需要进行合并. 所以, 如果最高的rank = k, 那么至少需要2^k的节点存在.
那么当前G有n个节点, 树的最大高度一定不大于log2(n), 此时所有的节点都在一颗树上了.
因此find的操作复杂度是O(log2(n)).
但从平均情况来看,当find运行的次数比较多的时候,实际上其复杂度的准确表达是log2*(k), (⚠️不是笔误), 他是迭代对数, 表示对k进行反复log2操作,需要多少次可以得到一个不大于1的数.
举个例子, log2*(2^65535) = 5, 因为65535 大致是2^8. 迭代对数计算的过程是这样:
65535->8->3->log2(3)->满足条件.
2^65536这个数非常大,已经超过了宇宙物质的数量总和,所以迭代对数的下降非常快,可以看成是常数时间了
在来看union操作, 两个find 与一个基本的O(1)操作,可以看成O(log2*(k)).
说了这么多,都还只是铺垫. 下面进入正题, Kruskal算法的复杂度分析.
- 初始化空树T 以及 union-find的结构: O(1) + O(k)
- 按边的权重进行排序, 我们考虑快速排序算法: k个节点可以有C(k,2)条边, 取高阶k^2. 所以这部分的复杂度为O(k^2 * log(k))
- 逐个增加边进行环的判断,这里要展开说明,
- 每条边都要算一次, 一共是 C(k,2)次
- 具体一条边来说, 需要用到union和find操作, 取高阶是O(log2*(k))
因此第三步的复杂度是O(k^2 * log2*(k))
进行整理一下,Kruskal的算法时间复杂度是O(k^2 * log2(k) + k^2 * log2*(k)). 在维基百科里面给出的表示是O(E * log(V)), E和V分别代表边与点的数量, 与这里的推导是一致的.
最后附上手写推导,