第2章 《集中趋势的度量》
求出平均数往往是掌握一大堆数字的的第一步;有了平均数就能找到最具有代表性的数值,得出重要结论。有关的概念:
- 均值:平均数的一般度量;平均数不止一种。用μ表示。
- 中位数
- 众数:一批数字中最常见的数值,即频率最大的数值;它必须是一批数中的一个,而且是最频繁出现的一个。
- 频数
对称数据 vs 向右偏斜 vs 向左偏斜
寻找中位数:
当偏斜数据或异常值使均值产生误导时,就需要用其它方式表示典型值。
第3章 《分散性与变异性的量度》
平均数能让你知道数据集的中心所在,能帮你寻找数据集中的典型值,但是要分析数据,平均数还远不够。本章介绍各种距和差。
描述数据分散程度的几个概念:
全距,也叫极差,最大数叫上界,最小数叫下界,上界减去下界等于全距。全局的局限性在于无法消除异常值的影响。
迷你距
四分位数:全距无法消除异常值的影响,那么我们就只取中间50%的数据的影响,50%数据的左端是下四分位数,右端是上四分位数。上下四分位数的差就是四分位距。
以上等于是将数字划分为四等份;还可以将数字划成100等份。第k百分位数就是k%处的数值,用Pk来表示。
箱线图,将上界、下界、上四分位数、下四分位数、四分位距、中位数等集合在一起的示意图。
全距和四分位距的问题是:他们仅仅告诉你最大值和最小值的差,无法告诉你最大值和最小值出现的频率。也就是说没有工具度量变异性。
方差:度量数据分散情况的方法;方差是数值和均值的距离的平方数的平均值;反应的是跟均值的距离的平方。
标准差:取方差的平方根。它反应的是跟均值的距离。
标准分:对不同环境下相关数据的进行比较的一种方法;对于一个数据集来说,标准分指的是一个特定数值的标准分,计算如下:
标准分的应用场景就是:对不同数据集进行比较,这些数据集的均值、标准差都不一样(不一样就不能那他们直接进行比较);通过标准分,我们可以把这些数据集视为来自同一个数据集或数据分布。为什么标准分有这个作用?为什么能视为来自同一个数据集?
为什么以上最右边的图,能把两个球员的标准分(放在同一个图中)进行比较?
因为以上右图是一个标准化的新分布(均值=0,标准差=1)
为什么能生成这样一个标准化的分布图?
因为根据标准分的定义,均值=0,标准差=1,意味着数据集中每个特定值跟它的标准分相等。
第4章 《概率计算:把握机会》
两种图形化概率数据的方式:
韦恩图
概率树
对立事件 vs 独立事件
互斥事件 vs 相交事件
相关事件
交集 vs 并集
P(A|B) vs P(A∩B)
P(A|B):已知条件,在已知B发生的条件下发生A的概率
P(A∩B):A和B同时发生的概率
条件概率
P(A | B) 在已知B已经发生的条件下发生A的概率,定义为
P(A | B) = P(A ∩ B) / P(B),即定义为:A和B同时发生的次数和B发生的次数相除的结果。这是一个定义,并未推理结果。
P(A ∩ B) = P(B ∩ A) 两者等价
P(B | A) = P(B ∩ A) / P(A)
全概率公式
B发生的方式:跟事件A一起发生,不跟事件A一起发生,以上两种情况的总和,如下:
P(B) = P(A ∩ B) + P(A' ∩ B)
结合条件概率,推理出全概率公式:
P(B) = P(B | A) x P(A) + P(B | A') x P(A')
贝叶斯定理
结合全概率公式(分母)和条件概率(分子),推导出贝叶斯定理
该定理提供了一种计算逆条件概率的方法,在你无法预知每种概率的情况下,它十分有用。
第5章 《概率计算:把握机会》
概率连续性 vs 离散性
期望
期望等于每个数值X乘以该数值发生的概率,然后将所有数值求和。
期望表示一个变量的典型值或均值,但不能提供有关数值分散性的任何信息。方差的作用正在此。
方差
第6章《排列与组合》
排列和组合的概念对比
相同点:都是从一组数中选取部分数进行排队,求排队的方法总数;
不同点:是否对顺序有要求。
排列和组合的计算方法
排列组合的应用场景
三匹公马和三匹母马进行排队:
- 如果求所有排队方式,那就用排列
- 如果不考虑个体特征、只考虑性别,求所有排队方式,那就用组合
第7章《几何分布、二项分布和泊松分布》
(等式)几何分布
几何分布的条件:
- 进行一系列相互独立的实验
- 每一次实验既有成功的可能,也有失败的可能,且单次实验失败和成功的概率相同
几何分布的目的:
- 我们主要关心的是,为了第一次成功需要进行多少次实验
注:成功和失败,还可以改成“感兴趣和不感兴趣”两个对立的目标
几何分布的计算公式:
几何分布的图形和众数(1):
(不等式)几何分布
几何分布简明指南
几何分布、二项式分布、泊松分布的对比
第8章 正态分布的运用:保持正态
离散变量 vs 连续随机变量
离散变量: 对于每个确定的值都有确定的概率值
连续随机变量: 对于每个确定的值没有确定的概率值,只有概率区间
概率密度函数
描述连续随机变量的概率分布