StatQuest学习笔记01——统计学分布及抽样

前言

这个系列的笔记是StatQuest视频的学习笔记,我的这些笔记有时候会使用一些自己以前收录的数据,外加自己补充的一些笔记。此篇笔记是基础知识,视频教程的1-5。

什么是直方图

如果我们测量一批人的身高,他们的身高并不固定,因此我们先做一个x轴,从左到右身高依次增高,如下所示:

image

此时,我们开始测量这批人的身高,一个点代表一个人,如下所示:

image

这种图有个缺陷,就是一些相同身高的人的点会重合,并不直观,因此我们可以转换一下图形,把相同身高的人的点叠加起来,如下所示:

image

这样的话, 我们就能很清楚地看到这批人身高的统计情况,这种图形可以叫直方图(histogram),直方图的下端(也就是x轴)的数据是连续的,可以自己设定,从图中可以明显看到,中间的人的点数多,两边的人点数少。再进一步,我们可以使用“分布(distribution)”这个术语来表示我们这次测量的为数据,将这些数据点的顶端用一个近似曲线连接起来,就成了下面的这个样子:

image

这种图形类似于一个钟型(bell)我们可以称它为正态分布(normal distribution),如果我们测量出来的数据是下面的这个样子,它就呈现一种指数分布(exponential distribution):

image

直方图的特点

如果我们在测量这批人的数据时,以0.5英尺(约合30cm)为单位,也就是说,在绘制直方图时,x轴的坐标上的宽度分布是这个样子的:

image

可以看到,这次测量把这批人的身高数据划分了4份,分别为小于5,5到5.5,5.5到6,大于6。如果改变一下,把数据划分为8份,也就是说最小的单位值是0.25,就是下面的这个样子:

image

如果测量更多的人,使用更加小的划分单位,我们就会得到一个对人体身高更加精确的估计值,下图是划分了18份,如下所示:

image

并且还可以画出一条曲线(curve),对这批数据进行估计,如下所示:

image

从这张图上我们可以得到以下信息:

image

测量一个人,得到这个低于4.5或高于6.5的概率比较低,而很大的概率会得到曲线中间凸出来的部分。使用曲线来估计一批人数据比直方图更有优势。第一,直方图有时候并不准,例如上图右侧蓝箭头这部分数据并没有测到,如果换一批人,就有可能测到;第二,使用曲线时,并不用考虑最小数据的分隔单位,就能估计一个数值的概率,例如我们要计算得到5.021和5.317这个数据的概率有多大,就直接利用曲线就能得到。第三,人的精力与资源有限,直接去测量大批数据并不现实,而估计一条曲线只需要我们手中少量数据的标准差与均值即可。

image

在这张图里,直方图与曲线都表示这批数据的分布,其中曲线的最高处以及直方图的中间地带,都是最有可能测量到的部分。除了这种正态分布的图形外,还有其他的分布(下图左上是正态分布,右上是指数分页,左下是均匀分页),如下所示:

image

直方图与柱状图的区别

直方图x轴上的组距是连续的,从上面的图形可以得知,测量的身高的不同划分是小于5,5到5.5,5.5到6,6以上。而柱状图的x轴上通常是一些分类的数据类型,看下图:

image

这张图就是一个柱状图(有人也称条形图),它的x轴是不连续的,只是一些分类变量。

正态分布

先看一下正态分布图形,就是上一部分中的身高分布数据,如下所示:

image

从图形上可以看到正态分布的特点:

  1. 左右对称,因此也叫钟型曲线(bell shaped curve);
  2. 中间凸起,两侧平缓。

再看另外的两个正态分布图形:

image

其中,左侧绿线表示的是出生的婴儿的身高分布(英寸),右侧的划线表示的是成人身高的分布,从这两个曲线上我们可以得到这些信息:

  1. 婴儿的正态分布曲线比较尖锐,这表示婴儿身高比较集中,成人身高的正态分布曲线比较平缓,这表示成人身高比较分散;
  2. 成人身高的平均值要高于婴儿身高的平均值。

再看一下婴儿和成人身高的95%的集中程度:

image

自然界的很多事物都符合正态分布,其背后的一个原理就是中心极限定理(the central limit theorem),以后的笔记会提到。

模型

模型,英文是指“model”。在统计学中,模型是指对现实世界中的一些事情的抽象处理,数据模型使用一些表格,图表,公式来研究现实世界中的一些规律,例如下图就是使用一个图表和公式来表示小鼠的体重与大小的关系:

image

有时候,图形不一定是直线,也有可能是曲线,如下所示:

image

抽样分布

下图是一个直方图,一个点表示一个人的身高:

image

然后用一条曲线来表示数据的分布:

image

如果我们从这个分布里面随机抽出一个样本的话,有很大的概率会抽到中间的这一部分,就是下图中黑色圆角矩形表示的区域:

image

如果我们使用某个程序(例如R语言)随机地从服从正态分布的数据中挑出许多样本,然后对它们进行统计的话,看一下会发生哪些事情,例如从下面的这个正态分布中随机地挑出两个样本,一个样本的数量是3(一个样本不一定只是一个数据点),如下所示:

image

然后对这两个样本进行t检验,由于它们都是来源于同不一个分布,因此t检验结果的p值会很大(也就是说p很有可能大于0.05)。如果这两个样本是来源两个不同的分布,如下所示:

image

那么经过t检验,得到的p值就会很小。如果想到得到较小的p值,这就可能要增加样本,或者是就此为止(增加样本涉及到一类错误与二类错误,这里不表)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容