写给所有人的极简统计学

写给所有人的极简统计学

偶然发现的一本好书。如果我的大学课本写得像它这样通俗易懂就好了。

统计学作为数学里的一个分支,它的地位一直以来都饱受质疑。统计的模糊性与数学的精确性确实有相悖的地方。


1

基础知识回顾

这是我觉得这本书最有意思的地方,它回顾了很多来自小学、初高中的知识,有些东西我自认为理解透彻了,猛然一读才发现自己的知识结构里还出现了很多漏洞。

有很多有意思的地方值得细细品味。

除法

我记得这是小学二年级的内容。

除法有两种意义,一种叫”等分除“,一种叫”包含除“。以分苹果来说明二者的差别。20个苹果分给4个人,每人可分5个苹果。这叫等分除。20个苹果,以5个为一份打包,分成4份。这叫包含除。

差别在于,第一个是\frac{20个}{4人} =5个/人;第二个是\frac{20个}{5个}=4。”等分除“里是求每单位里有多少;”包含除“里则是求比例。

平均

“均”是指重量;“平”是指没有差别。“平均”即是说在重量上没有差别。

“平均”是个千古难题。孔子说:“人不患寡而患不均。”《汉纪》载:“分肉甚平均,父老善之。”取长则要补短,劫富得拿来济贫,“平均”的概念总是与“公平”紧紧相连。

求平均数有两种方法。

第一种是\bar{x}=\sum_{i-1}^n\frac{X_i}{n}

第二种是\bar{x}=基准数+\frac{X_i-基准数}{n}

第一种是平均数最直接的定义。

第二种表示方法的意义在于,如果\bar{x}=基准数,那么\frac{X_i-基准数}{n}=0所有数字不管是高于平均数还是低于平均数,它们与平均数的差加总为0。这是方差概念产生的原因。正是因为“差”无法体现出数据之间的分布离散情况,才出现了\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n},就是方差V_x,方差用平方消除了这种困难。

平均数的缺点在于容易受极值影响,所以当一组数据中存在极值,通常转而寻求 ==中位数== 作代表。

函数

这本书对函数的解释同样很有趣。

从“函数”两字理解:

“函”是“信函”的“函”。它的意思是信箱,函是箱子的意思。“函数”也可以叫做“箱数”。把一个数字投入箱子里,出来另一个数。这个箱子的功能就是函数表达式f

从生活中理解:

就像在自动售货机前买饮料。当按下某款饮料下的按钮时,在出口处就会得到想要的饮料。售货机不就像一个箱子么。

函数-自动售货机

从因果角度理解:

因和果之间应当有四种对应关系,一对一、一对多、多对一、多对多。函数是一对一的关系,这是四种关系里最好的一种关系,既知原因,就可确定结果;或者知道结果,可以反推原因。非常清晰的逻辑关系。

一叶落而知天下秋,叶落真的是秋的原因吗,当然不是。这种关系就不是函数关系,而是相关关系。真实世界里很少存在一对一的因果关系,这种模糊性更加常见。如果有见微知著的本领,那就已经不是普通人了。

一次函数

它有两种表达形式。一种是y=ax+b;另一种是y-q=a(x-p)

第二种是靠两点确定一条直线的公理写出来的。一条直线经过(x,y)和(p,q),斜率a=\frac{y-q}{x-p},稍微变形就得到了两点式一次函数y-q=a(x-p)

二次函数

这应该是高中的基础内容。

表达式。

二次函数有好几种表达形式。

第一种,一般式y=ax^2+bx+c

第二种,配方法y=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}

它的推导过程如下

首先必须知道配方法是怎么工作的。
(x+k)^2=x^2+2kx+k^2
所以,x^2+2kx=(x+k)^2-k^2。这个式子的特点在于k之间的联系,一个是一半的关系,一个是一半的平方的关系。
那么ax^2+bx=a(x^2+\frac{b}{a}x)=a\left[(x+\frac{b}{2a})^2-\left(\frac{b}{2a}\right)^2\right]=a(x+\frac{b}{2a})^2-\frac{b^2}{4a}
y=ax^2+bx+c=a(x+\frac{b}{2a})^2-\frac{b^2-4ac}{4a}

更有比较特殊的情况,假如b=0,c=0,则原式变为y=ax^2,当(x,y)向左移动p,向右移动q时,顶点变为(p,q),出现了第三种表示方式,顶点式。

第三种,顶点式y=a(x-p)^2+q

最值。

二次函数的顶点为(-\frac{b}{2a},-\frac{b^2-4ac}{4a})

判别式。

判别式\Delta=b^2-4ac用来判断二次不等式ax^2+bx+c=0的解的情况。

(1)有两个不同解,\Delta<0,两个解为x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}
(2)有两个相同的解,\Delta=0, x_1=x_2=-\frac{b}{2a}
(3)无解时,\Delta>0

ax^2+bx+c=0
\rightarrow y=ax^2+bx+c=0
\rightarrow y=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}=0
\rightarrow (x+\frac{b}{2a})^2= \frac{b^2-4ac}{4a^2}
a\neq0
\rightarrow x+\frac{b}{2a}=\pm\frac{\sqrt[]{b^2-4ac}}{2a}
\rightarrow x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}



2

图表

当展示一组数据分布情况时,表可选择频数分布表,图可选择柱形图、折线图、饼图、带状图。

柱形图比较数值大小;折线图展示数值变化;饼状图和带状图都显示比例,其中带状图虽然长得像条形图,但带的长短变化是不能代表总量规模的变化的。

当展示两组数据的分布情况时,可选择点位图。点位图会显出五种关系:

  • 强正相关
  • 弱正相关
  • 强负相关
  • 弱负相关
  • 不相关

他们表现出的关系似乎类似于一次函数,但二者其实有很大区别。

相似之处在于,当点位图的图像呈上升趋势,称为正相关,这和一次函数图像上升时,斜率为正相互对应。

不同之处在于,相关关系并非数据间的一般特征,数据间也不一定有因果关系。这让我想起某一次实验,有人统计了夏天冰激淋的销量和溺水死亡率,两者呈现出很强的正相关。当然冰激淋和溺水死亡根本没有关系,这只是个偶然。


3

统计学概念

当表示一组数据间的离散程度时,可以着眼于两个基本特征:中位数平均值

平均值受极值影响,所以有时候中位数更能代表数据的总体情况。以中位数为基础,采用四分位数和箱形图可以有效展示数据离散情况。

当选择平均数时,则需要引入方差

方差

V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}

方差会把数据的离散程度扩成平方,数据变得太大,通常令人感到摸不着头脑。假如数学为100分制,一个班的平均成绩\bar{x}=50,如果方差为900分^2,这太奇怪了。所以要把它还原为标准差30分。这说明学生的成绩大概率分布在20-80分之间。

标准差
S_x=\sqrt[]{\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}}=\sqrt[]{\overline{x^2}-\overline{x}^2}

V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}=\frac{\sum_{i=1}^nX_i^2-2\bar{x}\sum_{i=1}^nX_i+n\bar{x}^2}{n}=\overline{x^2}-\overline{x}^2

采用以平均数为基础的标准差来表示一组数据的离散程度是不错的方式,但是当数据变为2组呢?

两组数据的分布情况用点位图展示。

相关系数

对于同一个点位图,有人也许觉得是强正相关,也有人或许会认为是弱正相关。正是主观感受的不确定性,才出现了相关系数这个概念。

相关系数用来表示相关关系的强弱

r_{xy}=\frac{C_{xy}}{S_xS_y},r\in[-1,1]
C_{xy}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n}

除以S_xS_y的原因是为了消除x和y本身的离散性影响,因为r_{xy}主要表示x和y的紧密程度。

范围 强弱
(-0.2,0.2) 几乎无相关
(0.2,0.4) 弱正相关
(0.4,0.7) 中等程度正相关
(0.7,1) 强正相关
(-0.4,-0.2) 弱负相关
(-0.7,-0.4) 中等程度负相关
(-1,-0.7) 强负相关

相关系数的概念是在高斯分布的基础上形成的,为什么接近1或-1时会存在强相关性呢?

第一步证明r的范围

i=3为例,

r_{xy}=\frac{\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+(x_3-\bar{x})(y_3-\bar{y})}{n}}{\frac{\sqrt[]{(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2}}{\sqrt[]{n}}\frac{\sqrt[]{(y_1-\bar{y})^2+(y_2-\bar{y})^2+(y_3-\bar{y})^2}}{\sqrt[]{n}}}
\rightarrow 令X_1=x_1-\bar{x},X_2,X_3同;Y_1=y_1-\bar{y},Y_2,Y_3同
r_{xy}=\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}
要证明r_{xy}\in[-1,1],
则证明\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}\leq1
X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}

该式的证明可以用到二次函数的判别式。

f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2 =(X_1^2+X_2^2+X_3^2)t^2-2(X_1Y_1+X_2Y_2+X_3Y_3)t+Y_1^2+Y_2^2+Y_3^2
如果f(t)\geq0,则\Delta\leq0,即X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}
那么何时取等号呢?
f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2=0
t=\frac{Y_1}{X_1}=\frac{Y_2}{X_2}=\frac{Y_3}{X_3}

将其一般化即可证明。

第二步,当r=1
\frac{Y-\bar{y}}{X-\bar{x}}=t
\rightarrow Y=t(X-\bar{x})+\bar{y}
所有的点都在一条直线上。

更加直观地理解相关系数,不如以(\bar{x},\bar{y})为原点,重新分割象限。如果落在第一、三象限的点多于二、四象限,那么r_{xy}更可能大于0,甚至接近1。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343