永野裕之《极简统计学》读书笔记

在信息过剩与价值多样化的现代,能够理解并表达出通过统计学运算得出的结论,已经成为现代人在社会上行走不可或缺的一项技能。

总的来说,统计就是将收集到的数据进行整理并加以分析的学问。

统计学用到的有4种比较有代表性的图表(柱状图、折线图、饼图与带状图),柱状图是一种主要用于比较数量大小的图表;折线图是一种主要用于表示数据变化与推移的图表;饼图适用于表示在一个整体中每个项目各占多少比例;带状图通常用于根据年份等条件,比较同一项目的占比变化情况。

常用一个有代表性的值,表示数据倾向特征,平均值是用得最多的,中位数和众数也可以作为代表值。想要知道数据的分散程度,就要考虑方差标准差。为了更加深入详细地研究数据的分散散程度,可以引入四分位数(首次见到这个概念)这个概念。四分位数是指,将数据从小到大排列并等分为4份后,处于3个分割点上的数。数据的中位数即为第2四位分数,数据前半部分的中位数为第1四分位数,数据后半部分的中位数为第3四分位数。研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。通过5大要数依次作差,观察各差大小来刻画数据的分散程度。

标准差不仅用于进一步的数据分析,在在推断统计中也经常用到,是一个非常重要的概念,甚至可以把标准差看作统计学的一个核心基础。需要注意的是,在“多峰性分布(有多个峰值)”的数据中,难以考证方差和标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表征数据与平均值的关系(这种情况如何解决?)。

在现实中,很多情况下的各变量之间并不是严密的函数关系,但存在着大致的关联,如何将这种关系的强弱以数学的方式加以表示和研究呢?答案是使用相关系数。

在研究数据相关性的时候,有两点需要注意。第一:研究得到的相关关系特征不能看作两个变量之间普遍的关系特征,可能含有偶然性。第二:两个变量之间的相关关系不能当作它们的因果关系,要注意区分。

计算相关系数需要用到三个值:两个变量的协方差、变量一的标准差和变量二的标准差。


image.png

根据r的值判断相关关系的强弱,一般按照如下标准:

image.png

如下图所示,以x和y的平均值作为分割线,将数据重新划分为4个象限,根据相关系数的表达式,分母为标准差之乘积大于0,正负只取决于分子。分子为数据与均值之差的乘积再求和,一、三象限的乘积大于0,而二、四象限的乘积小于0,根据数据点的多寡和距离均值线的远近,可以做一个粗略的估计,分子为正,就是我们看到的正相关。


image.png

当然,从图像看,是一种比较直观和粗略的估计,比较快捷(有时候只需要粗略估计,快速判断,就没有必要进行繁杂的操作了),具体相关到了何种程度,还是要使用相关系数的公式去计算。


image.png

推测统计。推测统计分为两个重要部分,一是通过研究样本对总体进行概率预测的“推论”;二是针对已知数据的差值,找出产生差值原因的“检验”。

比如在民意调查中,是从整个公民群体(总体)中选出一部分人(样本)进行调访,用以推论总体情况。在判断“喝咖啡能长寿”,“单身汉更短寿”这些说法的真伪时,则归于“检验”的范畴。

这本书很基础,其他内容基本是为中学数学基础的人准备的,故于此处略过不记。相比于小岛宽之的《极简统计学》而言,重心更在于统计入门所需的一些数学基础。此外,提出了使用“五大要数”考察数据分散程度和“多峰性分布”的情况,并对相关关系作了基本介绍。小岛宽之的书,更注重构成一个连续体系,更容易让人形成一种统计图像和思维,各有所长。但小岛宽之的书更容易让人学会如何提炼模型,分析问题,处理问题等实际应用。总之,因人所需而择之。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容