最近在看《数据挖掘——实用机器学习工具与技术》一书,书中的第四章节提到了贝叶斯公式、信息熵等知识。由于笔者把大学时学的数学知识基本忘光了,刚接触到这一块时一头雾水,读起来非常费力,而且看了半天也不能理解这公式怎么来的,含义又是什么。后来索性一狠心重新自学了一遍概率论的基本知识,再查阅各种介绍文章和视频,才逐渐对贝叶斯公式和信息熵有了个初步的理解。
相信有很多读者和我一样,概率论都忘得差不多了,所以这篇文章会从最基本的概率基本知识开始讲起。本文的写作目的是为了理解贝叶斯公式和信息熵,所以只会粗略的讲下概率论的知识,一些特定的限定条件或者概念如果不涉及理解,不会特别提及。
概率的基本概念
假设有一枚质量均匀的硬币,抛掷一次,得到正面的概率是多少?
一枚硬币抛掷一次一共有两种可能结果,正面(Head)朝上{H}和背面(Tile)朝上{T}。考虑到硬币质量是均匀的,我们相信出现正面和背面的机会是相等的,所以P(H) = P(T) = 0.5 =50%,正面和背面各有50%的概率出现。
另一个试验,我们用一枚质量均匀的硬币连续抛掷三次,一共会得到222共8种可能结果
HHH, HHT, HTH, THH, HTT, TTH, THT, TTT
由于硬币是质量均匀的,所以每种结果都是等概率出现的。一共有八种可能结果,所以每种结果的概率是1/8。
我们设试验的所有可能结果为样本空间,试验的每一种可能结果为事件。上述第一个试验的样本空间为{H, T},事件为{H}和{T}。上述第二个试验的样本空间为{HHH, HHT, HTH, THH, HTT, TTH, THT, TTT}, 事件为{HHH}, {HHT}, {HTH}, {THH}, {HTT}, {TTH}, {THT}, {TTT}。
由前两个试验可知,若每个试验结果是等概率的,那么事件A的概率P(A)的计算公式为
我们进一步讨论一些例子。
假设有一个质量均匀的六面骰子,抛掷一次后所有可能结果为{1, 2, 3, 4, 5, 6}。则
点数为1的概率为P(1)=1/6
点数为4的概率为P(4)=1/6
点数为1或者5的概率为P(1或5)=2/6=1/3
点数为偶数的概率为P(偶数)=3/6=1/2
再假设将一个质量均匀的四面骰子连续抛掷两次,则一共可能出现4*4共16种可能结果,则
P(第一次点数与第二次点数相同)=4/16=1/4
P(至少有一次点数等于4)=7/16
关于概率的基本知识先讲到这里,下一章节将介绍条件概率。
(未完待续)
参考资料
- 《概率导论》第2版修订版,【美】Dimitri P. Bertsekas, John N. Tsitsiklis 著, 人民邮电出版社
- Probability and statistics--KHANACADEMY