数据结构与算法之美-排序(二)

前言:本篇文章只是记录王争的数据结构与算法之美的学习笔记,写下来能强迫自己系统的再过一遍,加深理解。这门课以实际开发中遇到的问题为例,引入解决问题涉及到的的数据结构和算法,但不会讲的太细,最好结合一本实体书进行学习。

冒泡排序、插入排序、选择排序时间复杂度都是O(n^2),适合小规模数据的排序。归并排序和快速排序,适合大规模的数据排序,时间复杂度为O(nlogn),它们都用到了分治思想,可以借鉴这个思想,解决排序问题,比如:如何在 O(n)的时间复杂度内查找一个无序数组中的第 K 大元素?

1. 归并排序

1.1 介绍

核心思想:如果要排序一个数组,先把数组从中间分成前后两个部分,然后对前后两部分分别排序,再将排好序的两部分合并在一起,这样整个数组就有序了。

image.png

分治思想就是将一个大的问题分解成小的子问题来解决,小的问题都解决了,大的问题也就解决了。
分治算法一般都是用递归来实现的,分治是一种解决问题的处理思想,递归是一种编程技巧。

1.2 实现

之前在学习递归时,就是需要先分析得出递推公式,然后找到终止条件,最后将递推公式翻译成递归代码,所以要想写出归并排序,需要先写出归并排序的递推公式:


递推公式:
merge_sort(p…r) = merge(merge_sort(p…q), merge_sort(q+1…r))

终止条件:
p >= r 不用再继续分解

merge_sort(p…r)表示,给下标从p 到 r之间的数组排序,将这个问题转化成两个子问题:merge_sort(p…q),merge_sort(q+1…r),其中下标 q 等于 p 和 r 的中间位置,也就是(p+r)/2,当下标从p 到 q 和从q+1到 r这两个子数组都排好序之后,再将两个有序的子数组合并在一起,这样下标从p 到 r 之间的数据也就排好序了。

伪代码如下:


// 归并排序算法, A是数组,n表示数组大小
merge_sort(A, n) {
  merge_sort_c(A, 0, n-1)
}

// 递归调用函数
merge_sort_c(A, p, r) {
  // 递归终止条件
  if p >= r  then return

  // 取p到r之间的中间位置q
  q = (p+r) / 2
  // 分治递归
  merge_sort_c(A, p, q)
  merge_sort_c(A, q+1, r)
  // 将A[p...q]和A[q+1...r]合并为A[p...r]
  merge(A[p...r], A[p...q], A[q+1...r])
}

merge 函数的作用就是合并两个有序数组,这里就不做介绍了。

1.3 性能分析
  • 归并排序是稳定的排序算法,主要在于合并函数中,对于值相等的元素,可以放在前一个数组
  • 归并排序的时间复杂度为 O(nlogn)
    问题 a 可以分解为求解问题 b c,问题 a 的时间是 T(a),问题 b c 的时间分别为 T(b) 和 T(c),他们的递推关系式如下:
T(a) = T(b) + T(c) + K (K 为合并子问题所消耗的时间)

不仅递归求解的问题可以写成递推公式,递归代码的时间复杂度也可以写成递推公式。

归并排序的时间复杂度的计算公式是:

T(1) = C; n=1时,只需要常量级的执行时间,表示为 C
T(n) = 2 * T(n/2) + n; n > 1

// 分解计算过程

T(n) = 2*T(n/2) + n
     = 2*(2*T(n/4) + n/2) + n = 4*T(n/4) + 2*n
     = 4*(2*T(n/8) + n/4) + 2*n = 8*T(n/8) + 3*n
     = 8*(2*T(n/16) + n/8) + 3*n = 16*T(n/16) + 4*n
     ......
     = 2^k * T(n/2^k) + k * n
     ......

最终得到 T(n) = 2^kT(n/2^k)+kn。当 T(n/2^k)=T(1)时,也就是 n/2^k=1,我们得到 k=log2n 。我们将 k 值代入上面的公式,得到T(n)=Cn+nlog2n 。如果我们用大 O 标记法来表示的话,T(n) 就等于 O(nlogn)。所以归并排序的时间复杂度是 O(nlogn)

归并排序的执行效率和排序的原始数组的有序程度无关,所以其时间复杂度很稳定,都是 O(nlogn)

  • 归并排序的空间复杂度为O(n),不是原地排序算法,因为在合并时,它需要额外的空间去存储合并的有序数组。

2. 快速排序

核心思想:如果要排序数组中下标p 到 r之间的一组数据,可以选择p 到 r之间的任意一个数据作为 pivot(分区点)

遍历 p 到 r 之间的数据,将小于 pivot 的放到左边,将大于 pivot的放到右边,将 pivot 放到中间。经过这一步之后,数组 p 到 r 之间的数据被分成了 3 个部分,前面p 到 q-1 之间都是小于 pivot的,中间是 pivot,后面的q+1到 r之间是大于 pivot 的:

image.png

根据分治、递归的处理思想,可以用递归排序下标从p 到 q-1之间的数据和下标从q+1到 r 之间的数据,直到区间缩小为 1,说明所有的数据都有序了。递推公式如下:


递推公式:
quick_sort(p…r) = quick_sort(p…q-1) + quick_sort(q+1… r)

终止条件:
p >= r

伪代码如下:


// 快速排序,A是数组,n表示数组的大小
quick_sort(A, n) {
  quick_sort_c(A, 0, n-1)
}
// 快速排序递归函数,p,r为下标
quick_sort_c(A, p, r) {
  if p >= r then return
  
  q = partition(A, p, r) // 获取分区点
  quick_sort_c(A, p, q-1)
  quick_sort_c(A, q+1, r)
}

partition 分区函数就是随机选择一个元素作为pivot(一般情况下可以选择 p 到 r 区间的最后一个元素),然后对 A[p...r]分区,函数返回pivot的下标。

如果不考虑空间消耗的话,partition()分区函数可以很简单,申请两个临时数组,将小于和大于 pivot 的元素分别放入这两个数组中:

image.png

但是这样一来,快速排序就不是原地排序算法了,需要很多额外的空间,所以需要改进,伪代码如下:


partition(A, p, r) {
  pivot := A[r]
  i := p
  for j := p to r-1 do {
    if A[j] < pivot {
      swap A[i] with A[j]
      i := I+1
    }
  }
  swap A[i] with A[r]
  return I

这里类似于选择排序,通过游标 i 将 A[p...r-1]分成两部分A[p...i-1]的元素都是小于 pivot 的,暂时称为“已处理区间”,A[i...r-1]为“未处理区间”,每次都从未处理的区间 A[i...r-1]中取一个元素 A[j],与 pivot 对比,如果小于 pivot,则将其加入到已处理区间的尾部,也就是 A[i]的位置。这里只需要将 A[i]与 A[j]交换,就可以在 O(1)时间复杂度内将 A[j]放到下标为 i 的位置:

image.png

分区的过程涉及交换操作,所以快速排序不是一个稳定的排序算法。

2.1 性能分析

快排也是用递归实现的,如果每次分区操作,都能正好把数组分成大小接近相等的两个小区间,那快排的时间复杂度递推求解公式和归并是相同的,都是O(nlogn)


T(1) = C;   n=1时,只需要常量级的执行时间,所以表示为C。
T(n) = 2*T(n/2) + n; n>1

但是,公式成立的前提是每次分区操作,选择的 pivot 都很合适,正好能将大区间对等的一分为二,实际上这个很难实现。

如果数组中已经是有序了,比如 1 2 5 6 8 ,如果选择将最后一个元素 8作为 pivot,那么每次分区得到的两个区间都是不均等的,需要进行大约 n 次分区操作,每次分区需要扫描大约 n/2个元素,这种情况下,快排的时间复杂度就从 O(nlogn)退化成了 O(n^2)。

快速排序在大部分情况下的时间复杂度都可以做到 O(nlogn),只有在极端情况下,才会退化到 O(n2)。

3. 归并排序和快速排序区别

image.png

归并排序的处理过程是由下到上的,先处理子问题,然后再合并。
快速排序的处理过程是由上到下的,先分区,然后再处理子问题。
归并排序虽然稳定,但是为非原地排序算法,而快速排序虽然不稳定,但是可以实现快速排序,解决了归并排序占用太多内存的问题。

4. 练习

  • 归并排序算法
  • 快速排序算法
  • 寻求无序数组中第 k 大元素,时间复杂度为 O(n)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351