统计学完全教程,原著名为all of statistics learning,作者是Larry Wasserman。这本书用精简的语言讲述了统计学大部分知识,对统计学初学者来讲是一本非常好的入门教材。
首先列出本书的目录:引用
译者前言
原书序
第1章 概率
第2章 随机变量
第3章 数学期望
第4章 不等式
第5章 随机变量的收敛
第6章 模型、统计推断与学习
第7章 CDF和统计泛函的估计
第8章 Bootstrap方法
第9章 参数推断
第10章 假设检验和p值
第11章 贝叶斯推断
第12章 统计决策理论
第13章 线性回归和Logistic回归
第14章 多变量模型
第15章 独立性推断
第16章 因果推断
第17章 有向图与条件独立性
第18章 无向图
第19章 对数线性模型
第20章 非参数曲线估计
第21章 正交函数光滑法
第22章 分类
第23章 重温概率:随机过程
第24章 模拟方法
第一章 概率
所谓温故而知新,这一章内容非常基础,但是重读一遍仍然有很多收获。
1. 样本空间中的点称为样本点,样本空间的子集是事件,样本空间和事件的举例大家耳熟能详,这里不再举例。
重点掌握:
- 对一个观察对象,如抛硬币,如何描述样本空间和事件。
- 事件与事件之间的关系,包括交集(样本点属于集合A且属集合于B)、并集(样本点属于集合A或属于集合B)、余集(非集合A)、包含(集合A的元素都包含在集合B中)、集合差、零事件(永不为真)、必然事件(永远为真)、互斥(互不相容,不相交)、
- 集合序列有单调递增序列,单调递减序列。
2. 概率·P
概率是一个函数,是对每一个事件的赋值,这个赋值必须满足三条公理:1 任意一事件A的概率值大于0。 2 全样本空间概率为1。3 若事件两两互斥,则全部事件并集的概率等于对每个事件概率的求和。
对概率的理解大致分为两种:
第一种是认为概率表示在重复试验中事件A出现次数的最终比例,
第二种是认为概率度量观察者对A为真的信度,即可信度解释。
这两种解释在统计推断中有很大不同,并且派生出了两个学派:频率学派和贝叶斯学派。
3. 有限样本空间上的概率
有限样本空间上,若每种结果都是等可能的,那么P(A)=A元素数目/样本空间的元素数目,这个式子称为均匀概率分布
4. 独立事件
A、B独立,则AB同时发生的概率等于:A发生的概率与B发生的概率的乘积,P(AB)=P(A)*P(B)
5. 条件概率
定义为:在B发生的条件下,A发生的概率。这个式子可以认为是A、B同时发生次数占B发生次数的比例。
一般,B发生的条件下A发生的概率 与 A发生的条件下B发生的概率 不能混为一谈。
如示例图(手写的,请见谅 )
6. 贝叶斯理论
- 全概率公式:对复杂问题分解,求其各个原因发生条件下概率再求和。P(B)=P(B|A1)+P(B|A2)
- 贝叶斯公式:结果已经发生的条件下,寻找各原因发生的概率,关于这部分有很多有趣的例题,大家可以百度后去做一做。
第二章 随机变量
1. 随机变量:将事件、样本空间同数据联系起来
随机变量是映射:该映射对每一个输出样本点(或说事件)赋予实值,例如抛十次硬币,用随机变量X表示正面出现的次数,即事件A为正正反反反反正正反反,则X(A)=4
2. 随机变量的分布函数和概率函数
- 累积分布函数 (注:公式太难打了,偷个懒,不写公式只写概念的含义),又称CDF,CDF包含了随机变量所有的信息,有时用F表示。累计分布函数具有右连续,非减,规范性的性质。其中规范性的意思是随机变量值x趋于负无穷时累积分布函数对应0值,随机变量值x趋于正无穷时累计分布函数对应1值。
-
概率密度函数,定义区分离散的、连续的。
对离散的随机变量,概率函数或概率密度函数是随机变量概率值得分布函数,随机变量CDF等于概率密度函数从负无穷到该随机变量的求和;
对连续的随机变量,符合f大于0,在实数域积分等于1的函数称为概率密度函数。概率密度函数(PDF)是累积分布函数(CDF)可微时的导数。
连续函数的概率密度函数,对任意具体随机变量值其概率为0,
计算连续随机变量的概率,需要对概率密度函数求积分
连续情况下,PDF可以大于1,但离散时不会。
3. 一些重要的随机变量(认识他们的英文名字还挺重要的)
1. 离散型
-
单点分布
离散均匀分布
伯努利分布 X~Bernoulli(p)
X表示抛硬币的结果,0或1(正面或反面)二项分布 X~Binomial(n,p)
抛n次硬币,X表示出现正面的次数几何分布 X~Geom(p)
抛一枚硬币直到出现一次正面为止所需要抛的次数泊松分布X~poisson(p)
泊松分布常用于罕见事件,如放射性元素和交通事故
2. 连续型
- 均匀分布X~Uniform(a,b)
- 正态(高斯)分布X~N(μ,δ平方)
- 指数分布X~Exp(β)
用于电子元件寿命和两次罕见事件之间的等待时间 - 伽马分布X~Γ(α)
- β分布X~Beta(α,β)
- Χ^2分布