[数据分析] 样本、抽样和整体,也说说对统计的理解

本来这周的安排是写方差和标准差。动笔之后,发现不先说清楚样本和整体,方差什么的就只是个名词而已。

先稍微讲一下数学,毕竟统计就是数学的一个分支。通过票圈大家知道了著名的装逼名言:世界有三类人,数学家、实现数学家预言的工程师,和…其他人。是不是特别像“一等男人开政府、二等男人开保险公司、剩下都是三等男人”,吼吼吼~

但是,数学给人感觉其实还是“没用”。这个直观的感觉是对的,纯粹的数学是没有什么“用”的。我们用等速螺线来描述鹦鹉螺壳的优美曲线,但鹦鹉螺的生长原则其实很简单,不过就是最大可能利用上一个空间的一条边的情况下,用最少的几丁质材料做一个尽可能大的新空间。这个“逻辑”的结果,就是一条近似完美的等速螺线。受重力影响足够大的物体几乎都是球体也是类似道理。所以数学是一种“逻辑”,表述了一种“原理”,阐述了对现实的一种“理解”或者“观点”。比较过分的是,为了高效,或者装逼,那些数学家硬生生把自然语言改成了代数公式,相当于把Python搞成了汇编,结果就是大部分人疯了。周诰殷盘,佶屈聱牙。

好了回到统计。不知道有没有人和我一样,第一次接触统计的时候会困惑为啥要研究这么个东西?后来学了经济学和心理学,这个问题才慢慢有点模模糊糊的答案。

第一个答案是:穷。对某件事情的了解,最直白莫过于普查。想要知道中国人口的情况,做人口普查最准确、最直接了。为啥不这么干呢?贵啊!老这么干GDP都拿去填人口普查的坑了。

第二个答案是:焦虑。人的本性就是好奇。越不知道越想知道,不知道的未来也非要加一个解释。还要问,这个解释靠不靠谱啊…

于是,穷且焦虑的人类,创造了统计。当然,我们这么有想象力的、穷且焦虑的人类还创造了很多“统计”,比如星座配对啊,摸骨测字算命啊~开会报数,撒谎耍赖,互相死怼,等等等等~

穷怎么解决呢?整体搞不定,那就划个小圈子呗,划圈子的动作就是“抽样”。这个小圈子呢,就是“样本”。对于这个样本,我们就可以进行各种自己看感兴趣的研究了。好了,研究来研究去,这个结果终究是样本的情况。那么样本对于整体意味着什么呢?这个就是统计解决的问题了,利用数学的逻辑,去“证明”整体的情况“类似于”样本。虽然预算少,我们也可以认为“基本”知道了整体情况。举个例子,想要知道下大学生毕业平均薪水的情况。可以抽样100个大学生毕业的薪水,计算这100个学生的平均薪水,然后再推论“所有符合条件”的大学生毕业薪水的平均数,就是“近似于”这100个样本的平均薪水。

细心点的读者马上就会发现,这“抽样”里的花样就多了。比如,你去知乎用户里抽样这100个,可能结论就是平均毕业薪水50万…呵呵,有没有被平均的感觉?这就涉及到了“随机抽样”的问题,这里不展开,留个#TODO。

除了经济上的原因,有时候整体的情况在当代的科技水平下,是真的不可知。比如天文学和天体物理学都会研究宇宙的恒星数量和物质总量,但是这个真不知道确切的数字。只能通过“可观测的宇宙”,再用统计的方式来推测整个宇宙的情况。

那么,焦虑怎么办?答案是概率。相信大家直觉上都马上就明白了,样本的情况(或者专业点讲:特征集合)一定是能“在一定程度上”表述整体的情况的。不然,我们不太蠢了么… 关键在于“多大程度上”。概率分布可以用了表达对某个️事件(比如样本平均数是否等于整体平均数)的可信程度(置信区间)。以前特别热门的Six Sigma概念就是基于正态分布的置信。

说起概率,大家一定会提到“抛硬币”。抛的次数多了,正反面出现的概率就慢慢稳定在了50%。这个就是古典概率里的频率稳定的方式来描述概率。其实,还有贝叶斯学派对概率的解释,认为概率是对某个事件的信心表述。贝叶斯的概念是个非常重要的概念,有兴趣的读者可以自己“深度学习”一下。

这么一想,统计的最浅层的存在意义就是:用加班和便当来描述诗和远方,再问你信不信这碗鸡汤。咳咳,用样本的情况来描述整体,并且给出这个情况的可信程度。

那么统计对你有啥意义?好吧,统计会改变你的思维模式。再举例说明。用过导航app都知道路线确定后,程序会给出一个预计到达时间。请问这个时间是怎么来的?我问过不少人,基本的回答就是距离除以(平均)速度。当然不是咯~ 现实中的方式是:假定“到达时间”是某些特征向量的函数,这些特征可以是“所在城市”、“路线现有拥挤指数”、“行驶方式”、“是否高峰期”等等,通过回归的方式来预测。

0、回到目录

1、也说说平均数 -- 2019/02/23

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容