小白入门数据挖掘,从零开始,每周一更。
01 均匀分布
均匀分布很好理解,随机取区间内的值X,每个值出现的概率相等
实际应用场景没有找到,可能要到深入学习算法的时候才会用到。
公式
- 概率密度图如下
02 伯努利分布
又称为“两点分布”,随机变量X取值只有0或1两个值
实际场景中,试验一次的丢硬币是老掉牙的案例了。
概率计算公式
- 概率密度函数
- 期望方差公式
03 二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果
实际场景中,多次丢硬币,只有正面或者反面两个结果;工厂产品检测只有合格、不合格两个结果
-
应用条件
- 各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料
- 已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值
- n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等
公式
04 泊松分布
描述单位时间内随机事件发生的次数
实际场景中,某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等
案例:假设我们一个产品,统计用户性别比例男性占60%,假设有100个注册新用户,这100个注册用户,有1个为男的概率是多少?有两个为2男的概率是多少?有3个为男的概率是多少?依次下去,显然泊松分布也是离散型分布
再来一个案例:观测得到平均一小时通过的汽车数量时10,那么λ=10 ,那么平均每分钟通过汽车的数量为λ/n=10/60=1/6,所以在这段时间内,该随机事件(比如1小时经过3辆车的概率,将1小时划分为60分钟,要进行60次试验,发生3次通过)发生k次的概率服从二项分布。
-
应用条件
- 给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义
- 各段相等区域内的特定事件产生的概率是一样的
- 各区域内,事件发生的概率是相互独立的
-
特点
- 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np
- 如果n≥20且p≤0.05,用泊松分布近似二项分布的结果是良好的;
- 如果n≥100且p≤0.01,那么泊松分布近似二项分布的效果极好,两者的计算结果基本相同
公式
05 指数分布
描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。
某医院平均每小时出生3个婴儿,接下来15分钟有婴儿出生的概率是?
与泊松分布的关系:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。
公式
05 beta分布
用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。
-
案例
现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。
你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对啊。
对于这个问题,我们可以用一个二项分布表示(一系列成功或失败),一个最好的方法来表示这些经验(在统计中称为先验信息)就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。 详情参见大神文章
文章仅作为自己学习记录,内容来源于秦路老师的文章。
Day Day up !