
基础知识导图

统计&数据分析知识导图

随机变量导图
书中是基于问题来展开讲解知识点,我认为这种形式能让人带着重点学习,使人对学习更加专注。
因此本文也尝试着遵循问答形式。
Q1:什么是随机变量?随机变量和随机试验之间有什么关系?
1.随机试验:在相同的条件下对某随机现象进行的大量重复观测
随机试验的三个特点
- 在试验前,不能断定将产生什么结果,但可明确指出或说明试验的全部可能结果是什么
- 在相同的条件下可重复试验
- 重复试验的结果是以随机方式出现的
2.随机变量:用于描述随机试验的结果,常用X表示
- X可能是一个单独的随机试验结果
- X也可能是多个随机试验结果的组合(结果的总和或均值)
Q2:如何区分不同的随机变量?
1.随机变量的分布:每次随机试验结果的随机性是基于一定的规律产生的,该规律即为X的分布
2.区分方法:可以根据随机变量的分布来区分不同的随机变量
通过了解随机变量的分布,就能够在试验开始前预知最终产生的结果
Q3:什么是样本?样本和随机变量之间有什么关系?
1.样本(观测值):每次随机试验的结果,常用x表示
2.两者关系:以用户是否使用优惠券为例,每一张优惠券的实际实用情况都可以视为一个样本,而优惠券的转化率为随机变量X。
对于该例中的随机变量X,有两种理解方式(可以结合Q1理解)
- 理解方式1:将所有用户的优惠券使用情况看作一个样本量为n的随机试验,对应的样本为x1,x2,...,X为这些样本的均值
- 理解方式2:将每个用户的优惠券使用情况看作一个独立的样本量为1的随机试验,x1,x2,...是来自相同的随机试验且相互独立的样本,X为这些随机试验结果的均值
Q4:随机变量是怎么进行分类的?分类依据是什么?
1.分类:离散型随机变量和连续性随机变量
2.二者的区别:所描述的随机试验所有可能的结果数量是否可数
注意:是可数,而不是有限
3.可数的含义:所有可能的结果是否能够按照一定的次序列举出来
- 某网站每天的用户数量,可以按照1,2,3...的次序列举出来,虽然最终可能结果数量是无限的,但依然是可数的
- 处于某个区间内的数,比如转化率可以是[0,1]内的任意值,无法按照次序列举出来,因此不可数
- 经典例子:有理数与无理数,前者可数,后者不可数
Q5:常见的离散型随机变量有哪些?它们各自有什么样的分布律?
1.伯努利分布(0-1分布):每次试验的结果只有两种,“非A即B”,用0、1来表示

- 例:掷硬币试验、每张优惠券是否使用
2.n重伯努利分布(二项分布):n个重复独立的伯努利分布

- 每个伯努利分布事件发生的概率均为p
- 各个试验的结果相互独立,不受其他试验的结果干扰
- 例:优惠券总体的使用情况
3.泊松分布:一种离散概率分布,适合描述在单位时间(空间)内随机事件发生的次数

- λ表示在单位时间(单位面积)内随机事件平均发生的次数
很多时候,对于一些没有提取了解过的试验,都可以用泊松分布进行初步描述
Q6:常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
1.(累积)分布函数F(x)【CDF】:随机变量X小于或等于x的概率
2.概率密度函数f(x)【PDF】:满足下式

3.均匀分布:概率密度函数在结果区间内为固定数值的分布

- PDF图像为一条平行于x轴的线段
均匀分布比较特殊,这种完全的随机性分布场景在实际工作中较少碰到
4.正态分布

-
μ,σ分别表示正态分布的期望和标准差
正态分布PDF图像
正态分布是一种比较基础的分布,在实际工作中有着广泛的应用:3σ方法、中心极限定理
实际工作中,常利用正态分布及中心极限定理进行相关的效果分析
5.指数分布:描述泊松过程中事件之间的时间的概率分布
泊松过程:事件以恒定的平均速率连续且独立发生的过程

- λ表示泊松分布中在单位时间内发生某事件的次数
指数分布的特点:无记忆性

总结:这部分知识在面试中能够体现出候选者对基本的统计学知识的掌握情况,同时也是在工作中进行数据分析、数据挖掘的理论基础
参考文献
1.《拿下Offer 数据分析师求职面试指南》徐麟 著
