优先队列
- 合并多个有序的文件成一个大文件
假设我们有100个小文件,每个文件的大小是100MB,每个文件中存储的都是有序的字符串。我们希望将这些100个小文件合并成一个有序的大文件?
- 从100个文件都读取第一条数据,放到数组中
- 找出数组中最小的数据,写入到大文件
- 从数组中删除这条最小的数据,并从对于的文件读取下一条数据,放到数据组中
- 找出数组中最小的数据,写入到大文件
- 循环3,4。直到读取所有文件读取完成。
如何每次都找到最小的数据?
每次排序: O(nlogn)
采用堆:O(logn)
TopK
我们可以一直都维护一个K大小的小顶堆,当有数据被添加到集合中时,我们就拿它与堆顶的元素对比。如果比堆顶元素大,我们就把堆顶元素删除,并且将这个元素插入到堆中;如果比堆顶元素小,则不做处理.
求中位数
若N为奇数,则选择第(N+1)/2个为中位数;
若n为偶数,则中位数是(N/2以及N/2+1)的平均数;
- 静态数据
直接排序直接去中间的数据 -
动态的数据
面试题: 设计一种数据结构,让动态求解中位数的插入时间复杂度为logN,返回中位数为O(1)。
1.我们创建两个堆,一个大顶堆,一个小顶堆。大顶堆中存储前半部分数据,小顶堆中存储后半部分数据。当n是偶数,大顶堆存放前n/2个数据,小顶堆存放后n/2个数据。当n是奇数,大顶堆存放n/2+1个数据,小顶堆存放n/2个数据
2.新加入的数据小于等于大顶堆的堆顶元素,我们就将这个新数据插入到大顶堆;否则我们就将这个新数据插入到小顶堆。
-
维护当n是偶数,大顶堆存放前n/2个数据,小顶堆存放后n/2个数据。当n是奇数,大顶堆存放n/2+1个数据,小顶堆存放n/2个数据规则。我们可以从一个堆中不停地将堆顶元素移动到另一个堆,通过这样的调整,来让两个堆中的数据满足上面的约定。
变种中位数
问题: 如何快速求接口的99%响应时间?
中位数的概念就是将数据从小到大排列,处于中间位置,就叫中位数,这个数据会大于等于前面50%的数据。99百分位数的概念可以类比中位数,如果将一组数据从小到大排列,这个99百分位数就是大于前面99%数据的那个数据。
如果你还是不太理解,我再举个例子。假设有100个数据,分别是1,2,3,……,100,那99百分位数就是99,因为小于等于99的数占总个数的99%。
解法:
- 我们维护两个堆,一个大顶堆,一个小顶堆。假设当前总数据的个数是n,大顶堆中保存n99%个数据,小顶堆中保存n1%个数据。大顶堆堆顶的数据就是我们要找的99%响应时间。
- 每次插入一个数据的时候,我们要判断这个数据跟大顶堆和小顶堆堆顶数据的大小关系,然后决定插入到哪个堆中。如果这个新插入的数据比大顶堆的堆顶数据小,那就插入大顶堆;反之那就插入小顶堆。
- 为了保持大顶堆中的数据占99%,小顶堆中的数据占1%,在每次新插入数据之后,我们都要重新计算,这个时候大顶堆和小顶堆中的数据个数,是否还符合99:1这个比例。如果不符合,我们就将一个堆中的数据移动到另一个堆,直到满足这个比例。