概率与信息论
Expectation and Variance
- expectation 期望:E[.]表示对方括号内的所有随机变量的值求平均。
variance 方差:对x依据它的概率分布进行采样时,随机变量x的值呈现多大的差异 - covariance 协方差:在某种意义上给出了两个变量的线性相关性的强度以及这些变量的尺度
- correlation 相关系数:将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。
如果两个变量相互独立,协方差为0;
如果两个变量的协方差不为0,那么它们一定是相关的。
如果两个变量的协方差为0,它们之间一定没有线性关系,但是不一定相互独立,因为独立性表示没有线性和非线性关系。 - covariance matrix 协方差矩阵:是一个n x n的矩阵,用于对随机向量x的各元素之间求covariance
- correlation 相关系数:将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。
Probability Distribution
- 随机变量的分布函数:
- 常用离散型分布:
- Poisson distribution:常用来刻画某个记事时间段内事件发生的次数。
- 常用连续性分布:
- 指数分布:一般用来表示寿命,无记忆性。
- Bernoulli distribution: 单个二值随机变量的分布
- Multinoulli distribution or categorical distribution: 具有k个不同状态的单个离散型随机变量上的分布,k是一个有限值。Multinoulli distribution是multinomial distribution(多项式分布)的一个特例, multinomial distribution表示当对multinoulli distribution 采样n次时k个类中的每一个被访问的次数。Multinoulli distribution和Bernoulli distribution经常用来表示对象分类的分布,它们可以对那些能够将所有的状态进行枚举的离散型随机变量进行建模。
- Gaussian distribution or normal distribution:高斯是默认选择的分布函数,当我们由于缺乏关于某个实数上分布的先验知识而不知选择怎样的形式时,正态分布是默认的比较好的选择。原因:(1)需要建模的很多分布的真实情况是比较接近正态分布的。(2)在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,可以认为正态分布是对模型加入先验知识量最少的分布。
- exponential distribution:在x=0点处取得边界点(sharp point)的分布
- Laplace distribution:允许在任意一点处设置概率质量的峰值
- Dirac delta function: 概率分布中所有质量都集中在一个点上。,时,概率密度为0。类似于信号与系统中的冲激函数
- empirical distribution:,用在连续型随机变量。对于离散型随机变量,经验分布被定义成一个Multinoulli分布,对于每一个可能的输入,其概率可以简单地设为在训练集上那个输入值的经验频率(empirical frequency)。当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源的分布。经验分布是训练数据的似然最大的那个概率密度函数。
- mixture distribution:通过组合一些简单的概率分布来定义新的概率分布也是很常见的。
- latent variable:潜变量是不能直接观测到的随机变量
- Gaussian Mixture Model:高斯混合模型是非常强大且常见的混合模型。它的组件(component)是高斯分布,每个组件都有各自的参数。高斯混合模型是概率密度的universal approximator 万能近似器,任何平滑的概率密度都可以用足够多组件的高斯混合模型以任意精度来逼近。
Activation Function
- logistic sigmoid:,范围(0,1)通常用来产生Bernoulli distribution的参数,在输入绝对值非常大时会出现saturate(饱和)现象,对输入的微小改变不敏感
- softplus function:,范围(0,)用来产生正态分布的和,是ReLU的软化形式
随机变量的矩
- k阶原点矩
,记为 - k阶中心距
,记为 - k+l阶混合中心距
,记为k+l阶混合中心矩
切比雪夫不等式
,则对于任意,以下不等式成立,
意义在于不需要确定随机变量的分布,仅仅通过随机变量的期望和方差就可以估计出概率值。
信息论
-
性质
- 非常可能发生的事件信息量少
- 较不可能发生的事情信息量高
- <u>独立事件应具有增量的信息</u>例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
-
Shannon entropy:
那些接近确定性的分布(输出几乎可以确定) 具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。
-
如果我们对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),我们可以使用KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:
在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量。
因为KL 散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。但是,它并不是真的距离因为它不是对称的:
-
交叉熵:
-
structured probabilistic model/graphical model(结构化概率模型或图模型):
这种分解可以极大地减少用来描述一个分布的 参数数量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着,如果我们能够找到一种使每个因子分布具有更少变量的分解方法,我们就能 极大地降低表示联合分布的成本。