晚上快下班,再看seaborn的一个函数使用,是关于直方图的,但是这个纵坐标有点儿没搞懂,结果大半个小时过去了,我还是没想明白。
在路上才搞明白,那个是频率直方图,哎,这里记录下,备忘。
以前居然还写过一个关于直方图的,参考:
首先这是一个二维图表,分横坐标和纵坐标,横坐标是连续数值型,这个困惑了我的纵坐标我们后面再说。
这里有几个名词我们得搞明白:
组距
这一组数据,假设我们要分成m组,$(最大值-最小值)/m 就是组距频数
上面分完组之后,每一个元素都可以分配到不同的组中,每个组中元素的个数,就是频数频率
就是每一个分组中元素个数的占比,每一个分组的频率相加,是100%纵坐标
重点来了,困惑我的,这个纵轴不是频率,不是频率,不是频率
纵坐标是频率/组距
注意,是频率/组距
所以,我们想象一下,横坐标是每一个分组,每个分组的长度都是组距,而纵坐标又是频率/组距,那这个矩形的面积,其实就是频率
所以,最后这个频率分布直方图的面积,就是1
Frequency distribution histogram
好了,这里,我大概就想说这个问题,具体例子,清查考下一篇,使用seaborn绘制频率分布直方图