学习笔记DL008:概率论，随机变量，概率分布，边缘概率，条件概率，期望、方差、协方差

概率和信息论。

概率论，表示不确定性声明数学框架。提供量化不确定性方法，提供导出新不确定性声明(statement)公理。人工智能领域，概率法则，AI系统推理，设计算法计算概率论导出表达式。概率和统计理论分析AI系统行为。概率论提出不确定声明，在不确定性存在情况下推理。信息论量化概率分布不确定性总量。Jaynes(2003)。
机器学习经常处理不确定量，有时处理随机(非确定性)量。20世纪80年代，研究人员对概率论量化不确定性提出信服论据。Pearl(1998)。

不确定性来源。被建模系统内存的随机性。不完全观测，确定系统不能观测到所有驱动系统行为变量，也呈随机性。不完全建模，模型舍弃观测信息，导致预测不确定性。简单而不确定规则比复杂而确定规则更实用，即使真正规则是确定的并且建模型系统足够精确容纳复杂规则。

概率论分析事件发生频率。事件可以重复。结果发生概率p，反复无限次，有p比例会导致某个结果。概率表示信任度(degree of belief)。直接与事件发生的频率相联系，频率派概率(frequentist probability)。涉及到确定性水平，贝叶斯概率(Bayesian probability)。不确定性常识推理，列出若干条期望性质，满足唯一方法是贝叶斯概率和频率概率等同。Ramsey(1926)。概率，处理不确定性逻辑扩展。逻辑提供形式化规则，给定命题真假，判断另一些命题真假。概率论提供形式化规则，给定命题似然，计算其他命题为真似然。

随机变量(random variable)。

随机取不同值变量。无格式字体(plain typeface)小写字母表示随机变量，手写体小写字母表示随机变量取值。随机变量对可能状态描述。伴随概率分布批定每个状态可能性。随机变量可以离散或连续。离散随机变量有限或可数无限多状态。可能没有数值。连续随机变量伴随实数值。

概率分布(probability distribution)。

随机变量或一簇随机变量每个状态可能性大小。描述概率分布方式取决随机变量离散还是连续。

离散型变量和概率质量函数。离散弄变量概率分布用概率质量函数(probability mass function,PMF)描述。大写字母P表示概率质量函数。每个随机变量有一个不同概率质量函数，根据随机变量推断所用PMF。概率质量函数将随机变量每个状态映射到随机变量取该状态概率。x=x概率用P(x)表示，概率1表示x=x确定，概率0表示x=x不可能发生。明确写出随机变量名称，P(x=x)。定义随机变量，用_{符号说明遵循分布，x}P(x)。概率质量同时作用多个随机变量。多个变量概率分布为联合概率分布(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同时发生概率。简写P(x,y)。函数P是随机变量x的PMF，P定义域必须是x所有可能状态集合。FORALL(x) ELEMENT(X)，0<=P(x)<=1。不可能发生事件概率为0，不存在概率更低状态。确保一定发生事件概率为1,不存在概率更高状态。SUM(x ELEMENT(X),P(x))=1。归一化(normalized)。

离散型随机变量x有k个不同状态，x均匀分布(uniform distribution)，每个状态均等可能。PMF，P(x=x i)=1/k。所有i成立。k是一个正整数，1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分布满足归一化条件。
连续型变量和概率密度函数。连续型随机变量，概率密度函数(probability density function,PDF)描述概率分布。函数p是概率密度函数。p定义域是x所有可能状态集合。FORALL(x) ELEMENT(X)，P(x)>=0，不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。概率密度函数p(x)给出落在面积为DELTA(x)无限小区域内概率为p(x)DELTA(x)。概率密度函数求积分，获得点集真实概率质量。x落在集合S中的概率，p(x)对集合求积分得到。单变量，x落在区间[a,b]概率是INTEGRAL([a,b],p(x)dx) 。

实数区间均匀分布。函数u(x;a,b)，a和b 是区间端点，满足b>a。符号";"表示以什么为参数。x作函数自变量，a和b作定义函数参数。确保区间外没有概率，所有x NOTELEMENT([a,b])，令u(x;a,b)=0。在[a,b]内，u(x;a,b)=1/(b-a)。任何一点都非负。积分为1。x~U(a,b)表示x在[a,b]上均匀分布。

边缘概率。

定义在子集上的概率分布为边缘概率分布(marginal probability distribution)。离散型随机变量x和y，知道P(x,y)，求和法则(sum rule)计算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。边缘概率名称来源手算边缘概率计算过程。P(x,y)每个值被写在每行表示不同x值、每列表示不同y值网格中，对网络中每行求和，求和结果P(x)写在每行右边纸边缘处。连续型变量，用积分替代求和，p(x)=INTEGRAL(p(x,y)dy。

条件概率。

某个事件上在给定其他事件发生时出现概率。给定x=x,y=y发生条件概率记P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。条件概率只在P(x=x)>0有定义。不能计算给定在永远不会发生事件上上的条件概率。不要把条件概率和计算当采用某个动作后会发生什么相混淆。

条件概率链式法则。

独立性和条件独立性。

两个随机变量x和y，概率分布表示成两个因子乘积形式，一个因子只包含x，另一个因子只包含y，两个随机变量相互独立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的条件概率分布对于z的每一个值都写成乘积形式，随机变量x和y在给定随机变量z时条件独立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。简化形式表示独立笥和条件独立性，x UPTACK(y)表示x和y相互独立，x UPTACK(y)|z表示x和y在给定z时条件独立。

期望、方差和协方差。

函数f(x)关于某分布P(x)的期望(expectation)或期望值(expected value)，当x由P产生，f作用于x，f(x)的平均值。对于离散型随机变量，求和得到，E x~P [f(x)]=SUM(x,P(x)f(x))。连续型随机变量，求积分得到，E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。概率分布在上下文指明，只写出期望作用随机变量名称简化，Ex[f(x)]。期望作用随机变量明确，不写脚标，E[f(x)]。默认，假设E[.]表示对方括号内所有随机变量值求平均。没有歧义时，可以省略方括号。期望线性，E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依赖x。

方差(variance)衡量，x依据概率分布采样时，随机变量x函数值差异。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小时，f(x)值形成簇比较接近期望值。方差的平方根为标准差(standard deviation)。

协方差(covariance)，给出两个变量线性相关性强度及变量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。协方差绝对值很大，变量值变化很大，距离各自的均值很远。协方差为正，两个变量倾向于同时取得相对较大值。协方差为负，一个变量倾向于取较大值，另一个变量倾向于取较小值。其他衡量指标，相关系数(correlation)，每个变量贡献归一化，只衡量变量相关性，不受各个变量尺度大小影响。

协方差和相关性有联系，是不同概念。联系。两个变量互相独立，协方差为零。两个变量协义差不为零，一定相关。独立性和协方差性质完全不同。两个变量协方差为零，一定没有相互依赖，但具有零协方差可能。从区间[-1,1]均匀分布采样一个实数x，对一个随机变量s采样。s以1/2概率值为1,否则为-1。令y-sx生成一个随机变量y。x和y不相互独立，x完全决定y尺度.Cov(x,y)=0。

随机向量x ELEMENT(R n )协方差矩阵(convariance matrix)是n*n矩阵，满足，Cov(x) i,j =Cov(x i ,x j )。协方差矩阵对角元是方差，Cov(x i ,x i )=Var(x i )。

参考资料：

《深度学习》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

我有一个微信群，欢迎一起学深度学习。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,137评论 6赞 511
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,824评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,465评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,131评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,140评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,895评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,535评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,435评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,952评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,081评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,210评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,896评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,552评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,089评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,198评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,531评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,209评论 2赞 357

学习笔记DL008:概率论，随机变量，概率分布，边缘概率，条件概率，期望、方差、协方差

推荐阅读更多精彩内容