普通介绍快排的资料,在进行partition的时候,经常是使用两个“指针”i和j:
- 从前往后扫描,遇到比比较值大的就停下;
- j从后往前扫描,遇到比比较值小的就停下;
- 然后交换i,j两个对应的值
- 若i >= j,则结束,否则进入1
这样理解也不是很难,关键就在于写的时候很容易出错,反正我基本很难一次就写对。
上面的partition的思想是:首先假设比较值为V,数组是arr,下标从start开始,end结束(即end下标是合法的),那么在下标为[start, i)(左闭右开区间,后面也需注意)中的数都是小于比较值的(比较值可选下标为start或end的),下标为(j, end]的数都是大于比较值的然后找到arr[i] > V,arr[j] < V,然后交换这两个值,以维护前面说得那两个区间的性质。
不容易写错的快排
前面不用看也没关系,因为下面要介绍的才是重点。
下面要介绍的方法,稍微有点不同,但是基本思路还是相似的。先看代码:
import java.util.Random;
public class Qsort {
private static Random random = new Random();
private static void swap(int[] arr; int i, int j) {
int t = arr[i];
arr[i] = arr[j];
arr[j] = t;
}
private static partition(int[] arr, int start, int end) {
int lc = start - 1;
// 此处的swap,是为了随机选取中间的值作为比较值,这样要比直接选取arr[start]或arr[end]性能要好。
swap(arr, end, random.nextInt(end + 1 - start) + start);
for (int i = 0; i < end; i++) {
if (arr[i] < arr[end]) {
lc ++;
if (i != lc) { // 这个判定可以不要,i和lc相等时,交换和不交换没区别,只不过稍微耗点时间,最好还是加上
swap(arr, i, lc);
}
}
}
lc ++;
swap(arr, lc, end);
return lc;
}
public static void sort(int[] arr, int start, int end) {
if (start >= end) return; // 递归结束条件,这个应该很好理解
int mid = partition(arr, start, end);
// mid的值就是上一次partition后比较值的位置
// 小于arr[mid]的数全部都在mid前面,大于等于arr[mid]的数全在mid的后面
sort(arr, start, mid - 1);
sort(arr, mid + 1, end);
}
}
快排的递归还是很好理解和书写的,关键就在与partition函数的书写。
首先明确partition的功能:
返回一个下标mid,使得小于arr[mid]的数的下标都小于mid,大于arr[mid]的数的下标都大于mid。对于等于arr[mid]的数的下标是小于还是大于mid,取决于具体的实现,我们会在代码中进行说明。
那么对于前面实现的partition函数,我们先将代码单独拿出来:
private static partition(int[] arr, int start, int end) {
int lc = start - 1;
// 此处的swap,是为了随机选取中间的值作为比较值,这样要比直接选取arr[start]或arr[end]性能要好。
swap(arr, end, random.nextInt(end + 1 - start) + start);
for (int i = 0; i < end; i++) {
if (arr[i] < arr[end]) { // 这样的实现,等于比较值的数的下标就比mid要大,若判定条件加个等号,则等于比较值的数的下标就比mid要小
lc ++;
if (i != lc) { // 这个判定可以不要,i和lc相等时,交换和不交换没区别,只不过稍微耗点时间,最好还是加上
swap(arr, i, lc);
}
}
}
lc ++;
swap(arr, lc, end);
return lc;
}
需要知道的变量有start, end,lc和i。
前面两个很容易理解,就是要对arr数组中[start, end]进行操作。lc和i需要在循环过程中来讲解:
我们可以看到,lc在arr[i] < arr[end]的时候,会自加一次,这样,当这个条件第一次成立的时候,lc就变成了start,若此时lc和i不相等,则会进行一次交换,这样交换之后,一定就有arr[lc] < arr[end],我们可以观察到,每一次lc自加,然后经过swap,一定有arr[lc] < arr[end],所以我们可以得出结论:
- 区间[start, lc]中的数(若存在的话),一定是小于arr[end]的。
那么剩下的区间呢?
剩下的区间,可以分为[lc + 1, i],[i + 1, end - 1]。
对于[i + 1, end - 1],很明显,都是还未进行比较的数,他们和arr[end]的值大小关系还没有确定。
对于[lc + 1, i],这些数已经和arr[end]比较过了,小于arr[end]的数,已经在[start, lc]中了,因此,下标为[lc + 1, i]区间中的数,是大于等于arr[end]的数。这样,当for循环完成时,有:
- 下标为[start, lc]中的数都是小于arr[end]的
- 小标为[lc + 1, end - 1]的数都是大于等于arr[end]的
最后将位置lc + 1和end处的数相交换,然后返回lc + 1就行了。
维护下标为[start, lc]的数是小于等于arr[end]的关键就在于lc自加后进行一次swap。
需要注意的是,return前的lc自加和swap是为了找到arr[end]真正的位置,并交换过去,然后将位置返回,而不是维护下标为[start, lc]的数小于arr[end]的性质。