题目描述
如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。
思路
第一种思路,把全部元素存下来,排序,取中位数。如果数据量太大的情况下,效率较低。
第二种思路,使用最大堆和最小堆来解决。
首先构建一个最大堆和一个最小堆,
随后不断接收数据流里的数据,每接收一个,将其插入到堆里面。同时调整两个堆里元素的数量,保证两个堆的数据差在一个之内。
python里有内置的heapq可以使用,但是这个heap是最小堆,所以还要创建一个最大堆。这里最大堆的创建方法在GitHub上学到了一个小技巧,把应该加入最大堆的元素取相反数,然后加入到最小堆。那么这个装满相反数的最小堆就可以看成一个最大堆。很巧妙的一个方法。
代码
class Solution:
def __init__(self):
self.left = []
self.right = []
def Insert(self, num):
from heapq import heappush, heappop
#left 大堆 right 小堆
if len(self.right) == 0 or num > self.right[0]:
heappush(self.right, num)
else:
# push num的相反数进去,虽然left还是最小堆,但是里面的值都是相反数,反过来就是最大堆
heappush(self.left, -num)
# 不断调整两个堆,保证左右两个堆里元素的数量平衡
while len(self.left) - len(self.right) > 1:
data = -heappop(self.left)
heappush(self.right, data)
while len(self.right) - len(self.left) > 1:
data = heappop(self.right)
heappush(self.left, -data)
def GetMedian(self,xxx):
if len(self.left) == len(self.right):
if len(self.right) == 0:
return 0
min_heap = self.right[0]
max_heap = -1*self.left[0]
media = (min_heap+max_heap)/2.0
return media
elif len(self.left) > len(self.right):
media = -1*self.left[0]
return media
else:
return self.right[0]