3.1 为什么要用概率?
几乎所有的活动都需要能够在不确定性存在时进行推理。事实上,除了那些被定义为真的数学陈述,我们很难认定某个命题是千真万确的或者确保某件事一定会发生。
不确定性有三种可能的来源:
- 被建模系统内在的随机性。
- 不完全观测。
- 不完全建模。
在医生诊断病人的情况下,我们用概率来表示一种信任度 (degree of belief),其中 1 表示非常肯定病人患有流感而 0 表示非常肯定病人没有流感。前面一种概率,直接与事件发生的频率相联系,被称为频率概率 (frequentist probability);而后者,涉及到确定性水平,被称为贝叶斯概率 (Bayesian probability)。
3.2 随机变量
随机变量 (random variable) 是可以随机地取不同值的变量。
3.3 概率分布
概率分布 (probability distribution)用来描述随机变量或一簇随机变量在每一个 可能取到的状态的可能性大小。
3.3.1 离散型变量和概率分布律函数
概率分布律函数 (probability mass function, PMF):离散型变量的概率分布
• P 的定义域必须是 x 所有可能状态的集合。
• ∀x ∈ x, 0 ≤ P (x) ≤ 1.
联合概率分布 (joint probability distribution):多个变量的概率分布
均匀分布:P(X=x)=1/k
3.3.2 连续型变量和概率密度函数
X为连续型随机变量时,用概率密度函数 (probability density function, PDF)来描述它的概率分布
• p 的定义域必须是 x 所有可能状态的集合。
• ∀x ∈ x,p(x) ≥ 0. 注意,我们并不要求 p(x) ≤ 1。
• ∫ p(x)dx = 1.
x ∼ U(a,b) 表示 x 在 [a,b] 上是均匀分布的,p(x)=1/(b-a)。
3.4 边缘概率
定义在子集上的概率分布被称为边缘概率分布 (marginal probability distribution)。
设离散型随机变量x和y,已知P(x,y),得到P(x):
3.5 条件概率
3.6 条件概率的链式法则
3.7 独立性和条件独立性
相互独立 (independent):
3.8 期望,方差和协方差
期望 (expectation):
方差(variance):
协方差 (covariance):两个变量线性相关性的强度以及这些变量的尺度
两个变量如果协方差为零,它们之间一定没有线性关系。
独立性表示两个变量不仅没有线性相关,而且也不存在非线性相关。
协方差矩阵 (covariance matrix):