数据分析必备的统计学知识系列第2篇来啦!更多系列文章可翻看历史文章!
写在前面
数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学!无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。
为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。
但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!
所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!
02 数据分析中的统计学
Q1、AB测试的主要流程是什么?如何进行合理的流量分割?
1、一般在开始实验之前,我们首先需要和相关的产品或者项目经理确定这个实验所要验证的改动点是什么。
2、在确认改动点之后,数据分析师需要设计实验中所需要去观测的一些核心指标,比如点击率、转化率等。
3、确定完核心指标之后,下一步就是计算实验所需的最少样本流量,实验样本越大,我们的结果越可信,但是对我们用户的不良影响就越大。所以我们需要计算能够显著地证明我们的策略有效的最少样本量。
4、然后还要结合目前的日均活跃的用户量,计算实验持续的时间周期。
5、在计算完所需样本量之后,就要设计流量分割策略,根据实验需要对样本流量进行分流分层,保证样本的随机和均匀分布,避免出现辛普森悖论。
6、以上准备工作就绪,就需要和PM以及开发同学确认可以开始实验。一般在上线正式实验之前,会通过小流量去看一段时间的灰度实验。这个灰度实验的目的就是为了验证我们这个改动并不会造成什么特别极端的影响。
7、在灰度之后就会正式发版,等到实验周期结束,我们对实验的结果进行显著性检验。
以上就是AB测试中所采用的一套常规流程。
流量的分割常用的有分流和分层。
1)分流
用户分流是指按照地域、性别、年龄等把用户均匀地分为几个组,1个用户只能出现在1个组中。 但是实际情况中,往往会同时上线多个实验,拿广告来说,有针对样式形态的实验,有针对广告位置策略的实验,有针对预估模型的实验。如果只是按照这种分流模式来,在每组实验放量10%的情况下,整体的流量只能同时开展10个实验。这个实验的效率是非常低的。为了解决这个问题,提出了用户分层、流量复用的方法。
2)分层
同一份流量可以分布在多个实验层,也就是说同一批用户可以出现在不同的实验层, 前提是各个实验层之间无业务关联,保证这一批用户都均匀地分布到所有的实验层里,达到用户“正交”的效果就可以。所谓的正交分层,其实可以理解为互不影响的流量分层,从而实验流量复用的效果。
3)分流分层模型
Q2、如何理解第一类错误和第二类错误?
第一类错误和第二类错误这两个错误概率互相制约,你大我就会变小,你小我就会变大,基于保护零假设的原则, Neyman-Pearson 建议把一类错误概率固定住,让第一类错误概率不超过某个阀值(也就是alpha值),这种检验我们把它称为“水平为alpha的检验”。假设检验倾向于保护零假设,也就是零假设一般很难被拒绝,除非你有非常充分的证据。一般增加次数只是降低第二类错误,不能降低第一类错误,第一类错误现在置信水平就可以。主要还是要看原假设和备选假设分别是什么。第一类错误是H0实际发生了,但是却被误判了,第二类错误H1发生了,但是却被误判了。
举个栗子,这就好比谈恋爱。比方说:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第一类弃真错误,也称为α风险,错杀了好人;
如果H0实际上不成立,而你接受了H0,同样的道理,你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第二类纳伪错误,也称为β风险,放走了坏人。
如果要第二类错误的概率,那就只能增加恋爱的次数n,比如一个经历过n=100次恋爱的女生,第101次恋爱犯第二类错误的概率就会小很多了。
Q3、请列举分类和回归模型的评估指标
分类:
混淆矩阵、精确率、召回率和f1值等
回归:
平均绝对误差MAE(Mean Absolute Error)又被称为L1范数损失
平均平方误差MSE(Mean Squared Error)又被称为 L2 范数损失
R2决定系数表征拟合优度 sklearn.metrics. r2_score,模型越好:r2→1 模型越差:r2→0,计算公式为:
Q4、余弦距离与欧式距离求相似度的差别?
1、欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。
余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。
2、总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。
(1)例如,统计两部剧的用户观看行为,用户A的观看向量为(0,1),用户B为(1,0);此时二者的余弦距很大,而欧氏距离很小;我们分析两个用户对于不同视频的偏好,更关注相对差异,显然应当使用余弦距离。
(2)而当我们分析用户活跃度,以登陆次数(单位:次)和平均观看时长(单:分钟)作为特征时,余弦距离会认为(1,10)、(10,100)两个用户距离很近;但显然这两个用户活跃度是有着极大差异的,此时我们更关注数值绝对差异,应当使用欧氏距离。
Q5、什么是主成分分析PCA?
在统计学中,主成分分析(PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
以上就是【数分面试宝典】系列—统计学基础知识第2篇文章的内容,部分历史文章请回翻共 粽号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈~