
思维导图
Q1:用来描述随机变量的数字特征有哪些?
1.期望E(X):数学期望,用来表示随机变量X的平均水平
-
将X所对应的随机试验重复多次,随着试验次数的增加,X的均值μ会愈发趋近于E(X)
-
离散型随机变量的期望

-
连续型随机变量的期望

2.方差D(X)&标准差σ:方差用来刻画随机变量X的波动大小,方差也记为Var(X)
-
方差越大,结果的未知性就会越大
-
方差

定义式

-
标准差

-
标准化变量:数据标准化处理的理论依据,以此统一量纲,可以进行进一步的分析或建模

3.分位数:用来关注X中某个样本x在整体分布中的排序情况
-
若满足下式,则t为X的α分位数

-
若α为0.5,则称t为随机变量X的中位数

-
样本的分位数:通常用来监控异常数据,设[0.05,0.95]为合理的分位数区间,若某一样本值没有处于历史样本的该区间内,则需要对其重点排查。如果排查出是异常值,需要进行剔除或修正。
4.协方差Cov(X,Y)&相关系数ρ(X,Y):用来关注两个或多个随机变量之间的关系
-
联合分布

-
独立变量:如果满足下式,则X,Y为相互独立的变量

-
协方差

-
相关系数:用来描述X、Y之间是否存在线性关系

-
当X、Y相互独立时,协方差和相关系数均为0,反之不成立
-
相关系数的绝对值接近于1时,说明二者之间的线性关系比较强
-
相关系数的绝对值接近于0时,则表示二者之间的线性关系比较弱
Q2:随机变量X+Y、XY的期望与X、Y期望的关系?
-
对于任意两个随机变量X、Y,都满足

-
对于独立变量X、Y,满足

第二个公式是单向的,即若E(XY)=E(X)E(Y),则只能表明X、Y是不相关的,不能表明X、Y是相互独立的。可参考Q4进行理解。
Q3:分布的期望和中位数的大小关系?
-
分布的期望和中位数的大小关系根据分布的不同而变化
-
正偏态:中位数小于期望

正偏态PDF
-
正态:中位数等于期望

正态PDF
-
负偏态:中位数大于期望

负偏态PDF
Q4:简述变量独立与变量不相关的区别
-
不相关:两者没有线性关系,但是不排除其他的关系存在
-
独立:二者互不相干,没有关联
-
例:假设y=ax^2+b,则X、Y非独立但不相关。

x^2与y之间呈明显的线性关系,但是x与y之间不存在线性关系,相关系数的绝对值接近于0
-
不相关和独立是一种包含关系

Q5:常见分布的期望和方差是什么?
该问题一般不会在面试中会被直接问到,但是掌握这部分内容对其他部分的学习有很大的帮助作用
-
常见离散型随机变量的分布律、期望、方差

-
常见连续型随机变量的分布律、期望、方差

参考文献
1.《拿下Offer 数据分析师求职面试指南》徐麟 著