基础知识(二)统计&数据分析知识——随机变量的常用特征

思维导图

Q1:用来描述随机变量的数字特征有哪些?

1.期望E(X):数学期望,用来表示随机变量X的平均水平

  • 将X所对应的随机试验重复多次,随着试验次数的增加,X的均值μ会愈发趋近于E(X)

  • 离散型随机变量的期望

  • 连续型随机变量的期望

2.方差D(X)&标准差σ:方差用来刻画随机变量X的波动大小,方差也记为Var(X)

  • 方差越大,结果的未知性就会越大

  • 方差

定义式

  • 标准差

  • 标准化变量:数据标准化处理的理论依据,以此统一量纲,可以进行进一步的分析或建模

3.分位数:用来关注X中某个样本x在整体分布中的排序情况

  • 若满足下式,则t为X的α分位数

  • 若α为0.5,则称t为随机变量X的中位数

  • 样本的分位数:通常用来监控异常数据,设[0.05,0.95]为合理的分位数区间,若某一样本值没有处于历史样本的该区间内,则需要对其重点排查。如果排查出是异常值,需要进行剔除或修正。

4.协方差Cov(X,Y)&相关系数ρ(X,Y):用来关注两个或多个随机变量之间的关系

  • 联合分布

  • 独立变量:如果满足下式,则X,Y为相互独立的变量

  • 协方差

  • 相关系数:用来描述X、Y之间是否存在线性关系

  • 当X、Y相互独立时,协方差和相关系数均为0,反之不成立

  • 相关系数的绝对值接近于1时,说明二者之间的线性关系比较强

  • 相关系数的绝对值接近于0时,则表示二者之间的线性关系比较弱


Q2:随机变量X+Y、XY的期望与X、Y期望的关系?

  • 对于任意两个随机变量X、Y,都满足

  • 对于独立变量X、Y,满足

第二个公式是单向的,即若E(XY)=E(X)E(Y),则只能表明X、Y是不相关的,不能表明X、Y是相互独立的。可参考Q4进行理解。


Q3:分布的期望和中位数的大小关系?

  • 分布的期望和中位数的大小关系根据分布的不同而变化

  • 正偏态:中位数小于期望

正偏态PDF
  • 正态:中位数等于期望

正态PDF
  • 负偏态:中位数大于期望

负偏态PDF

Q4:简述变量独立与变量不相关的区别

  • 不相关:两者没有线性关系,但是不排除其他的关系存在

  • 独立:二者互不相干,没有关联

  • 例:假设y=ax^2+b,则X、Y非独立但不相关。

x^2与y之间呈明显的线性关系,但是x与y之间不存在线性关系,相关系数的绝对值接近于0

  • 不相关和独立是一种包含关系


Q5:常见分布的期望和方差是什么?

该问题一般不会在面试中会被直接问到,但是掌握这部分内容对其他部分的学习有很大的帮助作用

  • 常见离散型随机变量的分布律、期望、方差

  • 常见连续型随机变量的分布律、期望、方差


参考文献

1.《拿下Offer 数据分析师求职面试指南》徐麟 著

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容