深度学习——概率与信息论

概率与信息论

Expectation and Variance

  • expectation 期望:E[.]表示对方括号内的所有随机变量的值求平均。
    variance 方差:对x依据它的概率分布进行采样时,随机变量x的值呈现多大的差异
  • covariance 协方差:在某种意义上给出了两个变量的线性相关性的强度以及这些变量的尺度
    • correlation 相关系数:将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。
      如果两个变量相互独立,协方差为0;
      如果两个变量的协方差不为0,那么它们一定是相关的。
      如果两个变量的协方差为0,它们之间一定没有线性关系,但是不一定相互独立,因为独立性表示没有线性和非线性关系。
    • covariance matrix 协方差矩阵:是一个n x n的矩阵,用于对随机向量x的各元素之间求covariance

Probability Distribution

  • 随机变量的分布函数:F(x)=p\{X \leqslant x\}
  • 常用离散型分布:
    • Poisson distribution:常用来刻画某个记事时间段内事件发生的次数。
  • 常用连续性分布:
    • 指数分布:一般用来表示寿命,无记忆性。
  • Bernoulli distribution: 单个二值随机变量的分布
  • Multinoulli distribution or categorical distribution: 具有k个不同状态的单个离散型随机变量上的分布,k是一个有限值。Multinoulli distribution是multinomial distribution(多项式分布)的一个特例, multinomial distribution表示当对multinoulli distribution 采样n次时k个类中的每一个被访问的次数。Multinoulli distribution和Bernoulli distribution经常用来表示对象分类的分布,它们可以对那些能够将所有的状态进行枚举的离散型随机变量进行建模。
  • Gaussian distribution or normal distribution:高斯是默认选择的分布函数,当我们由于缺乏关于某个实数上分布的先验知识而不知选择怎样的形式时,正态分布是默认的比较好的选择。原因:(1)需要建模的很多分布的真实情况是比较接近正态分布的。(2)在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,可以认为正态分布是对模型加入先验知识量最少的分布。
  • exponential distribution:在x=0点处取得边界点(sharp point)的分布
  • Laplace distribution:允许在任意一点\mu处设置概率质量的峰值
  • Dirac delta function: 概率分布中所有质量都集中在一个点上。p(x)=\delta(x-\mu)x\ne0时,概率密度为0。类似于信号与系统中的冲激函数
  • empirical distribution:\hat{p}(x)=\frac{1}{m}\sum_{i=1}^{m}\delta (x-x^{(i)}),用在连续型随机变量。对于离散型随机变量,经验分布被定义成一个Multinoulli分布,对于每一个可能的输入,其概率可以简单地设为在训练集上那个输入值的经验频率(empirical frequency)。当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源的分布。经验分布是训练数据的似然最大的那个概率密度函数。
  • mixture distribution:通过组合一些简单的概率分布来定义新的概率分布也是很常见的。P(x)=\sum_{i}P(c=i)P(x|c=i)
  • latent variable:潜变量是不能直接观测到的随机变量
  • Gaussian Mixture Model:高斯混合模型是非常强大且常见的混合模型。它的组件(component)是高斯分布,每个组件都有各自的参数。高斯混合模型是概率密度的universal approximator 万能近似器,任何平滑的概率密度都可以用足够多组件的高斯混合模型以任意精度来逼近。

Activation Function

  • logistic sigmoid:\sigma=\frac{1}{1+exp(-x)},范围(0,1)通常用来产生Bernoulli distribution的参数\phi,在输入绝对值非常大时会出现saturate(饱和)现象,对输入的微小改变不敏感
  • softplus function:\varsigma=log(1+exp(x)),范围(0,\infty)用来产生正态分布的\beta\sigma,是ReLU的软化形式
  • image.png

随机变量的矩

  • k阶原点矩
    E(X^k)(k=1,2,\dots),记为\mu_k
  • k阶中心距
    E\{[X-E(x)]^k\}(k=1,2,\dots),记为\upsilon_k
  • k+l阶混合中心距
    E\{[X-E(X)]^k[Y-E(Y)^l]\},记为k+l阶混合中心矩

切比雪夫不等式

E(X)=\mu,D(X)=\sigma^2,则对于任意\epsilon>0,以下不等式成立,
P\{|X-E(X)| \geqslant \epsilon\} \leqslant \frac{D(X)}{\epsilon^2}
意义在于不需要确定随机变量的分布,仅仅通过随机变量的期望和方差就可以估计出概率值。

信息论

  • 性质

    • 非常可能发生的事件信息量少
    • 较不可能发生的事情信息量高
    • <u>独立事件应具有增量的信息</u>例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
  • Shannon entropy:
    image.png
  • 那些接近确定性的分布(输出几乎可以确定) 具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。

  • 如果我们对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),我们可以使用KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:


    image.png
  • 在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量。

  • 因为KL 散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。但是,它并不是真的距离因为它不是对称的:D_{KL}(P||Q)\ne D_{KL}(Q||P)

  • 交叉熵:H(P,Q)=H(P)+D_{KL}(P||Q)

    image.png

  • structured probabilistic model/graphical model(结构化概率模型或图模型):
    image.png

这种分解可以极大地减少用来描述一个分布的 参数数量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着,如果我们能够找到一种使每个因子分布具有更少变量的分解方法,我们就能 极大地降低表示联合分布的成本

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容