1、直方图
不要相信默认设置,自己多试几次区间的大小,最后得到漂亮的图。
2、什么是统计
假设我们测量一群人的身高
得到了一个直方图,大部分人分布在5-6feet,比5小的人很少,比6大的人也很少。
然后,把每个区间分成两份,这时我们可以看到:依然是5-6的人最多,但是可以更精确的说5.25-5.75的人最多
当样本足够大,区间越小,精确度也就越高,这时我们可以画一条曲线。曲线和直方图的含义类似,但在曲线上能更精准的读数(通过计算);即使曲线某处没有数据,我们依然可以估计他的发生概率;通过曲线可以省去大量的测量时间(通过数据的均值和方差画的曲线就很好了~)。
这种直方图和曲线都是分布,它能展示测量的概率书如何分布的。
分布曲线有很多种,之后慢慢讲~
3、什么是正态分布
一个铃铛状的分布曲线,y轴代表可能发生的概率。
有很少的人身高极低,大部分人是平均身高,个子极高的人也很少
下图是男性出生时身高的正态分布和成年人身高的正态分布,峰值最高处(最中间)是均值;分布曲线的宽度由方差决定,越大,越宽。均值+/-2倍标准差区间发生的概率为95%。
画正正态分布曲线你需要知道:均值,标准差
4、什么是model
本课程中,探讨model指数学或统计学中的含义
指关系,如图
model也可指方程,如图
模型可以简单,也可以复杂
总结
5、抽样分布
抽样:
为什么抽样?-->为了探索统计学