由于最近工作上都做数据分析的内容,所以根据众产品大神推荐的数据分析应读书单找了不少书来充电。《赤裸裸的统计学》是第一本,它的作者是Charles Wheelan,一名财经记者,他尝试着用通俗易懂的笔法和具体的例子来向读者介绍一些统计学的基础理论。同时也是向另一本类似风格的统计学书籍——《统计数字会撒谎》致敬。
读完后,个人觉得部分内容有一定统计学基础的人才比较容易理解,但整体而言,全书还是能符合作者的初衷的。现将部分自己可以理解且可能对数据分析工作有启发的内容摘录如下。
1 描述统计学
作者在这章中提出了平均数、中位数、百分位数和标准差等几类常用于事实描述的数据。
平均数:用于描述整体情况的基础数据。例如想知道全体用户的活跃情况,可以看人均每天访问次数。
中位数:用于描述数据集中的趋势。例如用户每天访问次数中位数是2,证明至少有一半的人的每天访问次数是≤2的。
百分位数:用于描述某个数据在整体数据中的位置,例如某个数据是25百分位数,证明有25%的数据是小于该数据,75%的数据是大于该数据。
标准差:用于描述一堆数据的离散情况,越大越离散。
2 相关性和相关系数
如果两类数据有相关关系并不等于是因果关系,举例:家里有超过3台电视的孩子教育水平要更好,并不是指电视越多教育水平就越高。有可能是家里电视多的,证明家里富裕,用于孩子教育的钱会更多。
3 概率和期望值
这章帮我回顾了大学课程《概率论》中关于期望值的内容,总结出两个观点:
①通过量化后的回报(期望值)对比成本来做决策,举例:投入20万,有70%的概率获得200万,30%的概率只剩2万。那期望值=200×70%+2×30%=140.6万,也就是回报的期望值是远大于20万的。
②大数定律,即随着试验次数的增多,结果的平均值会越来越接近期望值。第一点中举例的例子虽然回报的期望值远大于投入,但是可能你却只够钱投一次,那么风险还是很大的。但是如果你有钱投个十次八次,那么绝对是值得投的。
4 蒙提霍尔悖论(又叫三门问题)
很有趣的一个统计学问题:
百度百科:三门问题(Monty Hall problem)亦称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,大致出自美国的电视游戏节目Let's Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?如果严格按照上述的条件,即主持人清楚地知道,哪扇门后是羊,那么答案是会。不换门的话,赢得汽车的几率是1/3。换门的话,赢得汽车的几率是2/3。
以后有机会碰到类似的问题时,是不是知道该怎么做了?
5 数据和偏见
统计学在研究问题时,需要搜集数据,搜集数据的类型有两类:纵向数据和横向数据。
纵向数据:指时间维度的纵向,对观察对象持续观察数年甚至数十年来搜集数据。
横向数据:指空间维度的横向,对于不同地方的观察对象采集数据。
在进行数据分析时,容易犯下以下偏见。
选择性偏见:即以偏概全,搜集到的数据并不能代表全体。
发表性偏见:肯定性的数据结论要比否定性的数据结论更容易发表。
记忆性偏见:通过回忆得到的数据,谁也无法确保准确性。
幸存者偏见:数据样本在观察期没有从头到尾保持一致,例如一个班的平均成绩越来越高是通过差生辍学来实现的,班级的实际成绩水平并没有得到真正的提高。
健康用户偏见:以单方面的因素来得出结论,例如定期吃维生素的人更加健康,但有可能是定期吃维生素的人还会定期运动等等。
6 中心极限定理
中心极限定理的核心要义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系。而正确抽样一定要做到真正随机。
7 统计推断和假设验证
进行数据分析的时候,我们通常会有正向思维和反向思维两种方法。
正向思维就是指统计推断:统计推断是一个让数据说话、让有价值的结论浮出水面的过程。
反向思维就是假设验证:从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(又称备择假设)肯定为真。
8 回归分析和线性关系
回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。也就是说,我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来。应用到实际的数据分析工作中就是A/B测试,在执行A/B测试的过程中一定要控制好只有一个自变量。
通过最小二乘法得出的OLS 直线可以让所有数据的残差平方和为最小,从而求出自变量和因变量的线性关系图