Q1、什么是EDA(Exploratory Data Analysis)?
EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。
Q2、什么是同比、环比,意义是什么?
环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。
同比:是对去年同期的一个统计阶段进行对比,同比增长率=(本期数-同期数)÷同期数×100%,如今年的这个月和去年的这个月,同比的好处是可以排除一部分季节因素。
Q3、什么是相关性分析?相关和因果的区别是什么?
相关性的前提是各个变量之间是相互独立的,业务上来说,每个指标之间是没有影响的,相关性系数:0.5以下相关性较弱,0.5 -0.8中度相关,大于0.8较强相关。
如果A和B相关,会有以下几个推论:
A导致B:充分条件
B导致A:必要条件
C导致A和B:A和B同源
A和B如果有因果:充分且必要条件
相关和因果的区别:
相关:两个变量或多个变量之间的相互影响程度;核心点:变量与变量之间互为相关,没有先后顺序;
因果: 前一个事件对后一个事件的作用的关系及强度,核心点:有严格的先后顺序(变化可能会有延迟),如蝴蝶效应。
好玩的题目:
Y=0.5X y和x是相关还是因果?
y=0.5X+0.5z y和x是相关还是因果?
答案:都是相关
因果的前提是:有一个东西是先发生,而相关是没有先后顺序的,所以上述2个都是相关,而不是因果。
Q4、什么是聚类?业务应用场景?常见算法?
定义:
将相似的对象,将对象的特征进行抽象,通过算法将特征相似的对象化为一类,是一种无监督机器学习算法。
考点1:对于聚类,如何确定分类的数量N;
考点2:如何选择进行聚类的特征,比如要区分男女,有喉结的就是男生,留长发的就是女生;
应用场景:
个性化推荐(电商):相似用户行为相似,会分到某个类,如用户分层;
用户画像:基于用户的购买偏好、消费能力进行用户画像;
常见算法:
Kmeans聚类
DBSCAN聚类
Q5、什么是分类?业务应用场景?常见算法?
定义:
学习已有分类样本的特征,对新数据进行划分,是一种有监督的机器学习算法,分类是明确的,是有历史样本可学习的。
应用场景:
互联网金融用户信用等级分类
垃圾邮件分类
常见算法:
逻辑回归
SVM
贝叶斯
决策树
KNN
XGboost
Q6、什么是回归?业务应用场景?常见回归算法?
定义:
两个或多个变量之间是否相关,相关强度,并建立数学模型,定量评估
人话:我和你有没有关系,什么关系,深到什么程度。
本质:找到一条之间最合适的平均线,让线的附近的点分布均匀
应用场景:
运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃越高,那么,多到什么程度、大到什么程度、丰富到什么程度、用户的活跃最高,留存最高;
智慧城市的交通,预测交通拥塞程度:自变量:时间段、商业指数、住宅指数、城区指数、道路指数,因变量:两个连续信号灯之间道路的通行时间。
常见回归算法:
线性回归
lasso回归
ridge回归
树回归
Q7、时间序列预测的原理是什么?有哪些应用场景?
原理:
当自变量是时间时,且数据在时间上呈现出一定的规律,那么这种情况一般都可以使用时间序列预测接下来一段时间的数据走势。这个规律表现为:数据整体变化的趋势(可以理解为一条表征趋势的直线)、季节性(可以理解为按照一定的周期重复出现的模式)和随机性(可以理解为在零附近毫无规律的白噪声)组成,时间序列就是将数据按照这三个部分分别拆解,再基于历史数据进行组合预测。
应用场景:
一般应用于年度的KPI预测,产品的活跃用户数趋势,羽绒服的销量等。
Q8、时间序列预测需要注意的点?和回归有何区别?
需要注意的点:
时间间隔是固定的;
最近的数据对于预测影响程度越大;
预测是有季节性的,这里的季节性不一定是春夏秋冬,凡是以一定周期重复出现的都可以称为有季节性;
回归预测和时间序列预测的区别:
回归是自变量对于因变量的趋势,用以表征自变量和因变量之间的定量关系,一般来说自变量和因变量只能是连续的数据;
时间序列预测的自变量可以是任何数据,包括时间,只要数据呈现出周期性的趋势;
回归不能做季节性的预测;
以上就是【数分面试宝典】系列—面试业务题系列第3篇文章的内容,部分历史文章请回翻公众号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈