统计数字很容易说谎,但没有它,你就无法在大数据时代找到真相,预测未来。 --查尔斯·慧伦
曾经何时,我也是极度讨厌数学,无论微积分还是概率论等,正如作者所说,没有人告诉我,这些繁杂机械的公式到底有什么用。
直至接触到数据分析,才发现数学真的无处不在,其中的规律和应用更是令人着迷。这本赤裸裸的统计学正是通过生活中的一些事例来说明统计学的魅力,从而摆脱那些沉重重的公式和推论枷锁,让你不至于从入门到扔书。
以上便是我特意再次在这里总结该书的内容的动力,因为我也希望你们也能够真正感受到数学的魅力。
第一章 统计学是大数据时代的最炙手可热的学问
球员效率值
如果给你一份数据,记载一场NBA比赛上各球员的表现数据,例如命中率、得分、篮板、助攻等,你该如何去评价这场比赛中球员的表现呢?
命中率高达一百是不是一定最好?或者得分、篮板、助攻均上双是不是一定最好?很明显,大部分时候,如果仅凭这些分散的数据,是很难去评价一个球员表现的好与坏。例如,命中率一百的球员全场只是一投一中,拿到三双的球员命中率极低、持球率极高,显然一般来说这是表现不理想的情况,所以评价球员表现应该从整体数据下手,进而总结成一个数字---效率值。当你有了这个指标,再去评价球员表现就一目了然了,省去在一大堆数据中反复比较的麻烦。
基尼系数
基尼系数是衡量一个国家的财富(或收入)分配的公平程度,最小为0,最大为1。
计算基尼系数可以看总资产,也可以看年收入;可以以个人为计算和比较单位,也可以以家庭为单位。家庭财富均等的国家里,基尼系数为0;国家财富集中在一个家庭的国家里,基尼系数为1。所以,在我看来,基尼系数高的国家并不是一个健康的国家。基尼系数的警戒线是0.4,中国近年来一直在0.4~0.5之间,和美国差不多,日本是基尼系数最低的国家之一。
基尼系数有时候会乘以一百得到一个整数。
描述性数据
大学里的绩点(GPA)就是一个描述性数据。这一个数据没有反映学生所选课程的难易程度,例如一个绩点为4.5的学生选的都是相对没有挑战性的课,而另一名绩点只有2.9的学生选的尽是微积分、物理这类难度高的课,我们能一口判定孰优孰劣吗?
但是,描述统计学的存在的意义就是简化,因此不可避免的地丢失一些内容和细节。
抽样大数据
小朋友,你是否有很多问号?
有多少无家可归的人在广州街头流浪?已婚人士多久过一次性生活?
对这两个问题进行全面取样调查的代价都是高昂的,例如流浪汉你能一个一个数吗?性生活的你能挨个问吗?所以,一种重要的统计学做法就是抽样。
概率、风险
概率游戏对赌场有利时,从长远看,赌场总是能赚到钱,无一例外。
最不愿意遇到的风险,公司总会对其进行概率评估,虽然都知道是无可避免的,但是公司可以通过商业流程的设计来管理这些风险,将一系列不利因素的出现概率降至可接受范围内,例如通过手段干预将本来是50%的风险降至1%。但风险也只是能降至无穷低而不会消失,2008年的金融危机爆发的部分原因,就是一系列之前被认为极不可能发生的市场事件都变成现实。
那些人最有可能成为恐怖分子
恐怖分子的行动一般都是带有政治目的,所以只有受过高等教育和家境殷实的人才有最大的动力去改变社会,这些人尤其忍受不了某些部门对自由的压制,从而走向恐怖主义。其他因素相同的情况下,恐怖活动频繁出现在那些实施高压政策的国家。
统计学的意义
-总结大量的数据
-做出正确的决定
-回答重要的社会问题
-认识并应用模型,卖更多的纸尿片,抓更多的罪犯
-识别作弊者
-评价政策、项目和其他创新的有效性。
第二章 描述统计学
-一件连衣裙售价4999元,先降价25%后升价25%,最终售价是多少?
·描述任务第一步是估量某套数据的"中间位置",即找出集中趋势。
·四分位数:将数据由小到大分成4份,第一份占25%,以此类推。
·十分位数:将数据由小到大分成10份,每份占10%。
·标准差:衡量数据相对于平均值的分散程度。例如,两组数据,一组是马拉松运动员的体重,一组是航班乘客的体重,假设两组数据的平均值相等,一般来说,马拉松运动员的体重是相对均匀的,而航班乘客上有大胖子也有婴儿,那么可以推出航班乘客体重数据的标准差是远大于马拉松运动员的,即航班乘客体重数据更加分散。
·正态分布:位于平均值一个标准差的范围是68.2%,两个标准差是95%,三个是99.7%。
第三章 统计数据会撒谎
·1919年人们的平均时薪是2元,2019年人们平均时薪是5元,你觉得工资水平提高了吗?
·我们应该对“他这个人还不错”这句话引起警惕,不是这句话描述错误,而是这句话还有其他的潜台词,诸如这个人曾经坐过牢,上厕所不冲水,所以这句话的用意可能是在掩饰或淡化其他信息。
-马克·吐温:“谎言有三种,谎言,该死的谎言,统计学”。
·“精确”和“准确”有至关重要的区别。精确反映的是我们描述事物的精度,例如“41.6公里”比“大约40公里”要精确,这两个也比“相当长一段路”更精确。假如加油站在西方,“加油在西方400米”是一个精确的说法,但是如果说反了“加油站在东方400米”就是完全不准确的说法。如果一个答案是准确的,那么在这个基础上当然是越精确越好,否则再精确也毫无意义。
·美国制造业正在失去大量工作机会;美国制造业产出持续增高。两个说法似乎对立,其实涉及统计学的另一个方面:对优质数据的合理分析能够有效地调和对立的观点。即假设两个说法都是对的,那就要选择一个指标来当作判断标准,是就业还是产出率。
·名义数据:没有就通货膨胀做出调整的数字
实际数据:就通货膨胀做出调整的数字
·中位数和平均数一般都是同时出现的,不然就得警惕是否有遮盖的东西。