人工智能数学基础之概率论

概率论

基础概念

随机试验

试验是指为了观察某事的结果或某物的性能而从事的某种活动。在概率论中,一个试验如果具有以下3个特点:

  1. 可重复性:在相同条件下可以重复进行
  2. 可观察性:每次实现的可能结果不止一个,并且能事先明确实验的所有可能结果
  3. 不确定性:一次试验之前,不能预知会出现哪一个结果

这样的试验是一个随机试验,简称为试验

样本点和样本空间

每次试验的每一个结果成为基本事件,也称作样本点,记作w_1,w_2,\cdots, 全部样本点的集合成为样本空间,记作\Omega,则\Omega=\{w_1,w_2,\cdots\}

假设掷一颗均匀骰子,观察出现的点数。这是一个随机试验,样本空间\Omega=\{1,2,3,4,5,6\}

随机事件

基本事件是不可再分解的、最基本的事件,其他事件均可由它们复合而成,由基本事件复合而成的事件称为随机事件或简称为事件
常用大写字母A,B,C等表示事件。不如A=\{出现的点数为偶数\}=\{2,4,6\}

随机事件的概率

概率是用来描述随机事件发生的可能性大小。比如抛硬币的试验,抛得次数越多,出现正面的 次数与投掷次数之间的比例愈加趋于0.5。它的数学定义为:

在多次重复试验中,若事件A发生的频率稳定在常数p附近摆动,且随着试验次数的增加,这种摆动的幅度是很微小的。则称确定常数p为事件A发生的概率,记作P(A)=p

例子
设一年有365天,求下列事件A,B的概率:
A = \{n个人中没有2人同一天生日\} B = \{n个人中有2人同一天生日\}


显然事件A,B是对立事件,有P(B)=1 - P(A)
由于每人的生日可能是365天的任意一天,因此,n个人的生日有365^n种可能结果,而且每种结果是等可能的,因而是古典概型,事件A的发生必须是n个不同的生日,因而A的样本点数为从365中取n个的排列数P^n_{365},于是

P(A) = \frac{P^n_{365}}{365^n} \\ P(B) = 1 - P(A) = 1 - \frac{P^n_{365}}{365^n}

条件概率

A,B是两个事件,且P(A)>0,则称
P(B|A) = \frac{P(AB)}{P(A)}
为在事件A发生的条件下,事件B条件概率
P(AB)表示A,B这两个事件同时发生的概率。

例子
某种原件用满6000h未坏的概率是3/4,用满10000h未坏的概率是1/2,现有一个此种元件,已经用过6000h未坏,试求它能用到10000h的概率。

A表示\{满10000h未坏\},B表示\{满6000小时未坏\},则
P(B)=3/4,P(A)=1/2

由于B \supset A,AB=A,因而P(AB)=1/2,因此,
P(A|B)=\frac{P(AB)}{P(B)} = \frac{\frac{1}{2}}{\frac{3}{4}}=\frac{2}{3}

解释一下,这里由于事件A包括事件B的。

事件的独立性

如果事件B发生的可能性不受事件A发生与否的影响,即
P(B|A)=P(B)
则称事件B对于事件A独立,显然,若BA对立,则AB也一定独立,称事件A与事件B相互独立。

例子
口袋里装有5个黑球与3个白球,从中有放回地取2次,每次取一个,设事件A表示第一次取到黑球,事件B表示第二次取到黑球,则有
P(A)=\frac{5}{8},P(B)=\frac{5}{8},P(AB)=\frac{5}{8} \times \frac{5}{8} = \frac{25}{64}

因而
P(B|A) = \frac{P(AB)}{P(A)} = \frac{5}{8}
因此,P(B|A) = P(B),这表明无论A是否发生,都对B发生的概率无影响。事件A,B相互独立

性质

事件A和事件B相互独立的充分必要条件是
P(AB)=P(A)P(B)

全概率公式

如果事件A_1,A_2,\cdots,A_n是一个完备事件组(一个事件发生的所有可能性都在这里面),并且都有正概率,则有
P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+\cdots+P(A_n)P(B|A_n) = \sum_{i=1}^nP(A_i)P(B|A_i)

对于任何事件B,事件A\overline{A}构成最简单的完备事件组,根据全概率公式得
P(B)=P(AB+\overline{A}B)=P(AB)+P(\overline{A}B)=P(A)P(B|A)+P(\overline{A})P(B|\overline{A})

贝叶斯公式

设事件A_1,A_2,\cdots,A_n是一个完备事件组,则对任一事件BP(B)>0,有
P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum^n_{i=1}P(A_i)P(B|A_i)}

以上公式就叫贝叶斯公式,可由条件概率的定义及全概率公式证明。

例子
市场上供应的某种商品由甲、乙、丙3个厂商生存,甲厂占45%,乙厂占35%,丙厂占20%。如果各厂的次品率依次为4%,2%,5%。现从市场上购买1件这种商品,发现是次品,试判断它是由甲厂生产的概率。

设事件A_1,A_2,A_3,分别表示商品由甲、乙、丙厂生产的,事件B表示商品为次品,得概率
P(A_1)=0.45,P(A_2)=0.35,P(A_3)=0.20 \\ P(B|A_1) = 0.04,P(B|A_2)=0.02,P(B|A_3)=0.05

根据贝叶斯公式,可得:
P(A_1|B)=\frac{P(A_1B)}{P(B)} = \frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2) + P(A_3)P(B|A_3)} \\ = \frac{0.45\times 0.04}{0.45 \times 0.04 + 0.35\times 0.02 + 0.2 \times 0.05} \approx 0.514

在购买一件商品这个试验中,P(A_i)是在试验以前就已经知道的概率,所以习惯地称为先验概率。试验结果出现了次品,这时条件概率P(A_i|B)反映了在试验以后对B发生的来源(次品的来源)的各种可能性的大小,称为后验概率

随机变量

把试验的结果与实数对应起来,随试验结果的不同而变化的量就是随机变量,包含离散型随机变量和连续性随机变量。

概率分布

离散型随机变量X的所有可能取值为x_1,x_2,\cdots,x_n,称
P\{X=x_k\} = p_k (k=1,2,\cdots)
X概率分布

离散型随机变量X的分布律具有下列基本性质:

1.p_k \geq 0,K=1,2,\cdots;
2.\sum_{i=1}^{+\infty}p_k=1

下面看一下常见的离散型概率分布。

二项分布

二项分布是一种离散型的概率分布。二项代表它有两种可能的结果:成功或不成功。每次试验必须相互独立,重复n次,并且每次试验成功的概率是相同的,为p:失败的概率也相同,为1-p

抛硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰好有x次正面朝上的概率,可以使用二项分布的公式:
P\{X=k\}=C_n^kp^k(1-p)^{n-k}

在这里插入图片描述

泊松分布

如果随机变量X的概率分布为
P\{X=k\} = \frac{\lambda ^k}{k!} e^{-\lambda},k=0,1,2,\cdots
式中,\lambda>0为常数,则称随机变量X服从参数为\lambda的泊松分布,记为X\sim P(\lambda)

在这里插入图片描述

概率密度函数

若存在非负函数f(x),使一个连续型随机变量X取值于任一区间(a,b]的概率可以表示为
P\{a<X\leq b\} = \int^b_af(x)d_x
则称f(x)为随机变量X概率密度函数,简称概率密度密度函数

正态分布

又常称为高斯分布,其概率密度函数为
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

具有两个参数\mu\sigma^2,\mu代表服从正态分布的随机变量的均值,\sigma^2是此随机变量的方差。如果一个随机变量服从均值\mu,标准差为\sigma的正太分布,记作
X\sim N(\mu,\sigma^2)

我们通常称均值为0,标准差为1的正态分布为标准正态分布。

在这里插入图片描述

上图中蓝线就是标准正态分布

随机变量的期望

对于一个随机变量,经常要考虑它平均取什么,期望就是概率论中的平均值,对随机变量中心位置的一种度量。

例子

经过长期观察积累,某射手在每次射击命中的环数X服从分布:

X 0 5 6 7 8 9 10
P_i 0 0.05 0.05 0.1 0.1 0.2 0.5

求这个射手平均命中的环数是多少?


假设该射手进行了100次射击,那么,约有5次命中5环,5次命中6环,10次命中7环,10次命中8环,20次命中9环,50次命中10环,从而在一次射击中,该射手平均命中的环数为:

\frac{1}{100}(10\times 50 + 9 \times 20 + 8\times 10 + 7 \times10 +6 \times 5 + 5 \times 5 + 0 \times 0) = 8.85

我们可以看到离散型的随机变量的期望值可以用每种取值与概率相乘之和来得到:

E(X)= \sum_{i=1}^{+\infty}x_ip_k

期望的性质

  1. E(c) = c
  2. E(X+c) = E(X) +c
  3. E(kX) = kE(X)
  4. E(kX+c)=kE(X)+c
  5. E(X+Y)=E(X)+E(Y)

随机变量的方差

方差表示随机变量的变异性,方差越大,随机变量的结果越不稳定。

X为一随机变量,若
E[X-E(X)]^2
存在,则称其为X的方差,记为D(X),即
D(X) = E[X-E(X)]^2 = \frac{\sum (X - E(X))^2}{N}
而称\sqrt{D(X)}X标准差或均方差

方差还可以表示为:

由方差的定义和数学期望的性质,可以推出方差的计算公式:

D(X)=E(X^2) - [E(X)]^2

方差的性质

  1. D(c)=0
  2. D(X+c) = D(X)
  3. D(cX) = c^2D(X)

例子

甲、乙两车间生产同一种产品,设1000件产品中的次品数量分别为随机变量X,Y,已知他们的分布律如下:

X 0 1 2 3
P_i 0.2 0.1 0.5 0.2
Y 0 1 2 3
P_i 0.1 0.3 0.4 0.2

式讨论甲、乙两车间的产品质量。

先计算均值
E(X)=0\times 0.2 + 1 \times 0.1 + 2 \times 0.5 + 3 \times 0.2 = 1.7 \\ E(Y)=0\times 0.1 + 1 \times 0.3 + 2 \times 0.4 + 3 \times 0.2 = 1.7

得到,甲、乙两车间次品数的均值相同。

再计算方差
D(X)=(0-1.7)^2 \times 0.2 +(1-1.7)^2 \times 0.1 + (2-1.7)^2 \times 0.1 + (2-1.7)^2 \times 0.5 + (3-1.7)^2 \times 0.2 = 1.01\\ D(Y)=(0-1.7)^2 \times 0.1 +(1-1.7)^2 \times 0.3 + (2-1.7)^2 \times 0.4 + (2-1.7)^2 \times 0.4 + (3-1.7)^2 \times 0.2 = 0.81

以上用到了公式E(X)= \sum_{i=1}^{+\infty}x_ip_kD(X) = E[X-E(X)]^2

说明乙车间的产品质量比较稳定。

协方差

期望值分别为E(X) = \muE(Y) = v的两个随机变量之间的协方差定义为:
cov(X,Y) = E((X - \mu)(Y - v)) = E(X \cdot Y) - \mu v

协方差表示两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另一个是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果XY式统计独立的,那么二者之间的协方差就是0,因为
E(X \cdot Y) = E(X) \cdot E(Y) = \mu v
但是反过来并不成立。

取决于协方差的线性相关性\eta
\eta = \frac{cov(X,Y)}{\sqrt{var(X) \cdot var(Y)}}
\eta是衡量线性独立的无量纲数,取值[-1,1]之间。当\eta = 1称为完全线性相关;当\eta = -1称为完全线性负相关;当\eta = 0说两个随机变量是不相关的,或者说线性无关。

\eta越接近于1表明线性相关性越好。

在这里插入图片描述

协方差的性质

  1. cov(X,X) = var(X)
  2. cov(X,Y) = cov(Y,X)
  3. cov(aX,bY) = ab \, cov(X,Y)

其中a,b是常数。
性质1说的是,针对同一个随机变量,协方差就是方差。

协方差矩阵

协方差矩阵是一个矩阵,矩阵中的第(i,j)个元素是X_iX_j的协方差。这个概念是对于标量随机变量方差的一般化推广。

在这里插入图片描述
在这里插入图片描述

其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为多维随机变量各维度两两之间的协方差。

尽管协方差矩阵很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。 这个方法在统计学中被称为主成分分析(principal components analysis),在图像处理中称为Karhunen-Loève 变换(KL-变换)。

摘自维基百科

最大似然估计

概率vs统计

概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(均值,方差等)。统计研究的问题则相反,它是有一堆数据,要利用这堆数据去预测模型和参数。简单来说,概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

最大似然估计

最大似然估计是一种用来推测参数的方法,属于统计领域的问题。
它利用已知的样本结果信息,反推使这个结果出现可能性最大的模型参数值,是一种概率意义下的参数估计。

例子

假设有一种特殊的硬币,抛这种硬币出现的正反面并不相等,求它正面出现的概率(\theta)是多少?


这是一个统计问题,解决统计问题需要数据。于是我们拿这枚硬币抛了10次,得到的数据x_0是:反正正正正反正正正反。我们相求的正面概率\theta是模型参数,而抛硬币模型我们可以假设是二项分布。那么出现实验结果x_0的似然函数是多少呢?

f(x_0,\theta)=(1-\theta)\times \theta \times \theta \times \theta \times \theta \times (1 - \theta ) \times \theta \times \theta \times \theta \times (1 - \theta ) = \theta^7(1-\theta)^3 = f(\theta)

所谓最大似然估计,就是最大化这个关于\theta的函数,于是,我们画出f(\theta)的图像:

在这里插入图片描述

可以看出,在\theta=0.7时,f(\theta)取得最大值。

这样,我们已经完成了对\theta的最大似然估计。即,抛10次硬币,发现7次硬币正面朝上,最大似然估计认为正面朝上的概率是0.7。

更新记录

  • 2021-05-16 新增协方差和协方差矩阵。

参考

  1. 微专业人工智能机器学习数学高等数学概率论统计学基础进阶课程(完整版)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359

推荐阅读更多精彩内容