Python数据结构与算法49：排序与查找：快速排序

注：本文如涉及到代码，均经过Python 3.7实际运行检验，保证其严谨性。

本文阅读时间约为6分钟。

这一节介绍的是最后一种排序算法：快速排序。

快速排序Quick Sort

快速排序的思路，是依据一个“中值”(pivot value)数据项把数据表分为两半：小于中值的一半和大于中值的一半，然后用递归将这两半分别进行快速排序。

由于找“中值”数据项需要额外的计算开销，如果出于时间复杂度的考虑，想要省掉这种计算开销成本，只能随便找一个数据项充当“中值”，比如第1个数。

快速排序的递归三要素如下：

基本结束条件——数据表仅有1个数据项，自然是排好序的，结束。
缩小规模——根据“中值”，将数据表分为两半，最好情况是相等规模的两半。
调用自身——将两半分别调用自身进行排序（排序基本操作在分裂过程中）。

分裂数据表的目标：找到“中值”的位置。

排序是按从左到右的顺序从小到大，假定列表中存在一个“中值”，若是中值左边的数比中值大，或者中值右边的数比中值小，都属于“逆序”，反之才是“顺序”。

“顺序”和“逆序”是我们下面对数的位置是否需要进行交换的判断依据。

分裂数据表的手段：设置左右标(leftmark/rightmark)，左标向右移动，右表向左移动。左标一直向右移动，碰到比中值大的数据项（即逆序了）就停止；右标一直向左移动，碰到比中值小的数据项（即逆序了）就停止。然后把左右标所指的数据项交换。

继续移动，直到左标移到右标的右侧，停止移动。

这时右标所指位置就是中值应处的位置。将中值的位置和这个位置交换，分裂即完成。

分裂完成的结果是，以中值为界，左半部全部的数据项都比中值小，右半部全部的数据项都比中值大。

快速排序算法的一个实例

下面看看排序算法的一个实例。

问题是，用快速排序对列表 $[54, 26, 93, 17, 77, 31, 44, 55, 20]$ 进行排序。

Pic-507-1 快速排序算法的一个实例

快速排序的过程如上图所示：

我们假定列表的第一个数54为“中值”。左标leftmark就是54的下一个数26的位置，而右标rightmark就是最后一个数20所在的位置。

左标要向右移动，右标要向左移动。

左标对应的数26比中值54小（是顺序的），于是左标往右移动，碰到第一个数93，而93比中值54要大（逆序了），于是左标停下来。

右标对应的数20比中值54大（是顺序的），于是右标往左移动，碰到第一个数55，而55也比中值54要大（逆序了），于是右标也停下来。

这时93和20两个数互相交换位置（中值为界，比其小的应该在左标这里，比其大的应该在右标这里），即把93交换到右标所在位置，把20交换到左标所在位置。

交换位置完毕，左标继续往右移动，遇到了17，比中值54小（是顺序的），继续往右移动，遇到了77，比中值54大（逆序了），此时左标再度停下来。

右标在交换位置完毕后，也继续向左移动，遇到了55，比中值大（是顺序的），继续往左移动，遇到了44，比中值54小（逆序了），此时右标也再度停下来了。

此时77和44两个数也互相交换位置。

交换位置完毕后，左标继续往右移动，遇到31，比中值54小（是顺序的），继续往右移动，遇到了77，而77此刻处于右标的右边，也就是左标此时已经越过了右标，停止条件达成。此时，右标所指的31就是中值需要交换的位置。而我们此前假定的中值54，就需要和31这个数互相交换位置。

这样一来，我们最初假定的中值54，把整个列表分成了两半，比54小的有5个数，比54大的数有3个数。54就一个数，自然不需要排序。我们利用递归对左半部进行快速排序，对右半部进行快速排序。最后达成整个列表排序的目的。这就是整个列表快速排序的过程。

根据以上思路，快速排序算法的具体代码及相关注释如下：

# 快速排序。

def quickSort(alist):
    quickSortHelper(alist, 0, len(alist)-1)
    
def quickSortHelper(alist, first, last):
    if first < last:  # 基本结束条件。
        splitpoint = partition(alist, first, last)  # 分裂，缩小规模。
        
        # 递归调用：
        quickSortHelper(alist, first, splitpoint-1)
        quickSortHelper(alist, splitpoint+1, last)


def partition(alist, first, last): 
    pivotvalue = alist[first]  # 假定中值为第一个数。
    
    leftmark = first + 1  # 左标leftmark的初始值。
    rightmark = last  # 右标rightmark的初始值。
    
    done = False
    while not done:
        # 左标leftmark向右移动的过程。
        while leftmark <= rightmark and alist[leftmark] <= pivotvalue:
            leftmark += 1  # 左标leftmark向右移动。
        
        # 右标rightmark向左移动的过程。
        while alist[rightmark] >= pivotvalue and rightmark >= leftmark:
            rightmark -= 1  # 右标rightmark向左移动。
        
        if rightmark < leftmark:  # 左标到了右标的右边时，移动终止。
            done = True
        else:
            alist[leftmark], alist[rightmark] = alist[rightmark], alist[leftmark]  # 坐标对应的值和右标对应的值交换位置。
    alist[first], alist[rightmark] = alist[rightmark], alist[first]  # 假定的中值和最后得出的中值互换位置。
    
    return rightmark  # 返回中值所在的位置，也就是分裂点。
    
   
l = [54, 26, 93, 17, 77, 31, 44, 55, 20]
quickSort(l)
print(l)

<<<[17, 20, 26, 31, 44, 54, 55, 77, 93]

快速排序的算法分析

快速排序的过程分为两大部分：分裂和移动。

如果分裂总能把数据表分为相等的两部分，那么快速排序的算法复杂度是O(log n)。
而移动需要将每项与中值进行比对，其算法复杂度为O(n)。

综合看来，快速排序的算法复杂度就是O(nlog n)。而且，快速排序在运行过程中不需要额外的存储空间。

这样看来，快速排序的算法性能是非常有优势的。

但是，快速排序的性能跟中值的选取有很大关系。

存在一些极端情况，比如中值所在的分裂点偏离中间过远，就会造成左右两部分数量不平衡。极端情况，有一部分始终没有数据。

这样的话，快速排序的时间复杂度就会退化到 $O(n^2)$ ，再加上递归调用的开销，其性能比冒泡排序更糟糕。如果是这种情况，那我们还不如选择冒泡排序算法。

既然快速排序的算法性能和中值的选取有很大关系，那么我们是否可以通过改进中值的选取方法来尽可能保证快速排序的算法性能？

答案是可以但不能完全保证。

比如我们可以采取“三点取样”选取中值的办法，即从数据表的第一个数据项、最后一个数据项、最中间的一个数据项这三个数据中选取不大不小的那个数据项作为中值。这样能做一些改进，但依然无法排除极端情况。

To be continued.