【数分面试宝典】数分面试常考业务题(三)

Q1、什么是EDA(Exploratory Data Analysis)?

EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值

②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。

Q2、什么是同比、环比,意义是什么?

环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。

同比:是对去年同期的一个统计阶段进行对比,同比增长率=(本期数-同期数)÷同期数×100%,如今年的这个月和去年的这个月,同比的好处是可以排除一部分季节因素。

Q3、什么是相关性分析?相关和因果的区别是什么?

相关性的前提是各个变量之间是相互独立的,业务上来说,每个指标之间是没有影响的,相关性系数:0.5以下相关性较弱,0.5 -0.8中度相关,大于0.8较强相关。

如果A和B相关,会有以下几个推论:

A导致B:充分条件

B导致A:必要条件

C导致A和B:A和B同源

A和B如果有因果:充分且必要条件

相关和因果的区别:

相关:两个变量或多个变量之间的相互影响程度;核心点:变量与变量之间互为相关,没有先后顺序;

因果: 前一个事件对后一个事件的作用的关系及强度,核心点:有严格的先后顺序(变化可能会有延迟),如蝴蝶效应。

好玩的题目:

Y=0.5X  y和x是相关还是因果?

y=0.5X+0.5z  y和x是相关还是因果?

答案:都是相关

因果的前提是:有一个东西是先发生,而相关是没有先后顺序的,所以上述2个都是相关,而不是因果。

Q4、什么是聚类?业务应用场景?常见算法?

定义:

将相似的对象,将对象的特征进行抽象,通过算法将特征相似的对象化为一类,是一种无监督机器学习算法。

考点1:对于聚类,如何确定分类的数量N;

考点2:如何选择进行聚类的特征,比如要区分男女,有喉结的就是男生,留长发的就是女生;

应用场景:

个性化推荐(电商):相似用户行为相似,会分到某个类,如用户分层;

用户画像:基于用户的购买偏好、消费能力进行用户画像;

常见算法:

Kmeans聚类

DBSCAN聚类

Q5、什么是分类?业务应用场景?常见算法?

定义:

学习已有分类样本的特征,对新数据进行划分,是一种有监督的机器学习算法,分类是明确的,是有历史样本可学习的。

应用场景:

互联网金融用户信用等级分类

垃圾邮件分类

常见算法:

逻辑回归

SVM

贝叶斯

决策树

KNN

XGboost

Q6、什么是回归?业务应用场景?常见回归算法?

定义:

两个或多个变量之间是否相关,相关强度,并建立数学模型,定量评估

人话:我和你有没有关系,什么关系,深到什么程度。

本质:找到一条之间最合适的平均线,让线的附近的点分布均匀

应用场景:

运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃越高,那么,多到什么程度、大到什么程度、丰富到什么程度、用户的活跃最高,留存最高;

智慧城市的交通,预测交通拥塞程度:自变量:时间段、商业指数、住宅指数、城区指数、道路指数,因变量:两个连续信号灯之间道路的通行时间。

常见回归算法:

线性回归

lasso回归

ridge回归

树回归

Q7、时间序列预测的原理是什么?有哪些应用场景?

原理:

当自变量是时间时,且数据在时间上呈现出一定的规律,那么这种情况一般都可以使用时间序列预测接下来一段时间的数据走势。这个规律表现为:数据整体变化的趋势(可以理解为一条表征趋势的直线)、季节性(可以理解为按照一定的周期重复出现的模式)和随机性(可以理解为在零附近毫无规律的白噪声)组成,时间序列就是将数据按照这三个部分分别拆解,再基于历史数据进行组合预测。

应用场景:

一般应用于年度的KPI预测,产品的活跃用户数趋势,羽绒服的销量等。

Q8、时间序列预测需要注意的点?和回归有何区别?

需要注意的点:

时间间隔是固定的;

最近的数据对于预测影响程度越大;

预测是有季节性的,这里的季节性不一定是春夏秋冬,凡是以一定周期重复出现的都可以称为有季节性;

回归预测和时间序列预测的区别:

回归是自变量对于因变量的趋势,用以表征自变量和因变量之间的定量关系,一般来说自变量和因变量只能是连续的数据;

时间序列预测的自变量可以是任何数据,包括时间,只要数据呈现出周期性的趋势;

回归不能做季节性的预测;

以上就是【数分面试宝典】系列—面试业务题系列第3篇文章的内容,部分历史文章请回翻公众号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359

推荐阅读更多精彩内容