1. 四分位数的概念和中位数差不多,中位数是数集中最中间的一个数,四分位数可分为上四分位(偏上/大届)和下四分位。他们和中位数可以刻画出正哥数据的一个分布情况。相关链接:https://www.zhihu.com/question/54858749/answer/202280013
2. 为什么有了方差的情况下还要引入标准差?
与方差相比,使用标准差来表示数据点的离散程度有3个好处:
A)表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
B)表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
C)在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
其中波动大小==离散程度
中心极限定理:当n很大时,随机变量近似地服从标准正态分布N(0,1)
样本标准差和总体标准差(猴哥):https://www.zhihu.com/question/27276029/answer/70788053
链接:http://blog.shaochuancs.com/mean-variance-sd/
3.正态分布:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
作用:可以大概估算出数据的位置
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
链接:https://zhuanlan.zhihu.com/p/24732117
数学真是个奇妙的工具呀呀呀呀呀呀呀!!!