到目前为止,排序算法我们已经基本讲完了,下面我们就把已经讲过的排序算法进行一次小的总结,希望能够帮助你更好的理解这些排序算法。讲了这么多排序算法,其实在工作中或者是实际的业务中,最常用的排序算法大概也就是四个:插入排序、归并排序、快速排序,以及堆排序。这四个算法的比对信息如下图所示:
平均时间复杂度
从平均时间复杂度来看,插入排序无疑是最差的,但是有一点需要说明的是,当待排序数列接近有序的时候,插入排序的时间复杂度是会变好的,极端情况下如果是一个有序的数列,那时间复杂度是O(n),具体原因见:O(n2)排序算法的总结。另一个需要重点说明的是快速排序,待排序数列的特点对快速排序的效率影响非常大,从我们之前的文章就可以看出来,如果是一个接近有序或者是重复元素很多的待排序数列,用基础的快速排序,时间复杂度已经基本退化成了O(n^2),具体的原因见:快速排序精讲——需要重点处理的三种特殊情况。
而对于三个O(nlogn)时间复杂度的算法,最常用的两种算法是快速排序和堆排序,因为经过优化后的快速排序基本上是系统级的业务在使用,而对于动态数据的整理,堆排序则是独一无二的选择。
对于时间复杂度是否稳定这个特点,相信经过之前的文章您已经知道,插入排序和快速排序的时间复杂度是随着待排序数列的特点而变化的。而归并排序和堆排序则没有这个问题。这是为什么呢?主要还是和实现的方式有关系,因为快速排序和插入排序都要找一个标定点,而这个标定点的选择,影响了后续的排序操作次数,所以优化快速排序和插入排序,都是从标定点入手的。
是否原地排序
插入排序、快速排序,以及堆排序都可以实现原地排序,归并排序则不行。因为归并排序必须创建一个和待排序数列相同的存储空间,才能对数据进行归并处理。而堆排序虽然大多数情况下也需要这份额外的空间,但是优化后的堆排序,也是可以不使用的。详细过程见:1.归并排序精讲——分治算法的初步应用,2.最大堆进阶:堆排序及其优化。
如果不能进行原地排序,那肯定是必须使用额外的存储空间,对于上表也许您有一个很大的疑问,为什么快速排序要使用O(logn)的额外空间呢?这是因为快速排序依赖递归算法实现,而每一层递归都需要开辟一些额外空间,再加上递归层级的原因,所以需要O(logn)的额外空间。
稳定性
稳定性的定义如下:
如果一个待排序数列已经根据某一个value排好序,再根据其他value进行排序,那之前数列的顺序,对于第二个value相同的元素,数列的顺序不变。
比如,对于一个通过字典顺序排好序的成绩单,如果我们再根据数学成绩进行排序,那之前相同数学成绩的学生,在重新排好序的数列中,依然是按照字典顺序排序的。如果一个排序算法满足这个要求,那这个算法就是稳定的。因此,这个例子也说出了排序算法稳定性的使用场景。
那哪些算法是具有稳定性的呢?为什么他们具有稳定性呢?这是和算法的实现方式有关的,通过我们之前讲的实现方式,插入排序和归并排序是稳定的,快速排序和堆排序是不稳定的。有一个特点你必须明白:
虽然我们之前的实现插入排序和归并排序是稳定的,但如果修改一下算法,很有可能插入排序和归并排序也变得不稳定。
这就是计算机算法的魅力所在,一个参数或者是一个逻辑的改变,算法的特性都会有很大改变。
有没有终极算法
通过对上面排序算法的总结,不知道你没有这么一个疑问:
有没有一个终极的排序算法,它的时间复杂度是:O(nlogn),而且时间复杂度很稳定,原地排序,空间复杂度为O(1),具有稳定性的特征。
很明显,我们已经讲过的这些排序都不能满足上面的特性。那存不存在一个终极的排序算法呢?理论上来说,这种排序算法是可以存在的,也就是说,现在研究排序算法的科学家是有可能发现这样一种排序算法的。
在计算机领域,排序算法可以说是最初级的算法,而且至今已经研究了快一百年,竟然还有一个终极算法等着你去实现,是不是想想就觉得很兴奋。怎么样,是不是觉得排序算法的领域是非常吸引人,因为有一个终极算法在等着你去实现。冷水还是要泼的,因为兴奋是没有用的,踏踏实实的搞研究才是解决问题的根本。
所以说,看了我的文章的小伙伴们,大家加油吧,也许未来的算法大师,就在我们身边。我是徐建航,这是我写的第64篇文章,欢迎你加入007社群,七天写一篇,一起写七年,七年之后一起去南极。