最近频频面试数据产品经理,以及高级数据产品经理,作为一个普通产品经理,也是慌得一批。
数据产品经理,顾名思义,既要有产品能力,还要有一些基本的数据分析能力。
而高级数据产品经理,则需要在数据产品经理的基础上,达到更高的要求,商业管理能力,团队管理能力。
为了面试别人,最近恶补数据分析方面的知识,活生生把自己逼成一个数据产品经理。
总结一下最近学习的数据分析知识。
1、技术层面
Q1:如何评估数据质量?
从数据的正确性、完整性、一致性上评估。
Q2:常见的数据质量问题(脏数据)有哪些?
1)错误值:由于数据采集时录入错误,后续计算加工错误,或信息系统的原因,导致数据有误。
2)缺失值:因为逻辑原因、数据采集原因,或者表间关联、冗余存储等原因,字段值缺失,有些模型比如线性回归和逻辑回归等不接受缺失值,这种情况就需要对缺失值进行处理。
3)异常值:因为真实数据中存在异常值,或者因数据采集录入、计算错误带来的异常值,对于有些模型例如线性回归,异常值会有杠杆效应,对模型带来不利影响,需要在建模前做必要的处理。
4)完整性:数据采集、数据提取或者业务本身发展变化(例如产品暂停导致特定时间段没有数据)导致数据不完整。缺失值也可视为数据完整性的一方面。
5)分类变量:某些机器学习算法模型只能接受定量特征,这就需要将分类变量通过编码转换为定量特征。
6)非结构化数据:对于文本、图像、语音、图数据等类型的数据,模型不能直接使用,需要对数据进行预处理,例如文本编码向量化、图像和语音特征提取等。
7)量纲问题:特征的规格不一样,不能放在一起比较,特别是在涉及距离度量和数值计算时,例如依赖于距离计算的算法模型以及广义线性回归类模型。一般考虑采用无量纲化解决这一问题,典型的做法是标准化归一化,或者通过比例消除量纲。
点评:能回答出前三条就基本算对,全部答对?要么是大牛,要么是看答案了吧,哈哈~
Q3:数据挖掘的核心在于建模,在数据挖掘中数据集分为哪几类?
在数据挖掘中,通常将数据集分为三类:训练集、验证集和测试集。
训练集:结果已知,用于模型训练拟合的数据样本,在实际应用中这部分数据往往会占总体样本的70%~80%。
验证集:结果已知,不参与模型的训练拟合过程,用于验证通过训练集得到的模型效果,同时对模型中的超参数进行选择。
测试集:结果未知,最终利用模型输出结果的数据集。
这三部分构成了模型的整体数据集。模型上线后,输出模型在测试集上的结果,并与最终的实际结果进行对比。测试集后续可以转化为训练集或者验证集,实现模型的不断迭代和优化。
根据训练样本是否带有标签,将模型分为监督学习和非监督学习。
Q4:阐述监督学习和非监督学习的区别。
训练数据既有特征(feature),又有标签(label),则称为监督学习。通过训练,让机器可以自己找到特征和标签之间的联系,针对只有特征没有标签的数据,即此前提到的测试集,可以通过模型获得标签。
根据标签是连续的或者离散的,分为预测(prediction)问题和分类(classification)问题。需要注意的是,这里的离散和连续的区分依据是标签数量是否可数,而非是否有限。
在非监督学习的数据集中只有特征,没有标签,通过数据之间的内在联系和相似性将样本划分成若干类,称为聚类(clustering),或者对高维数据进行降维(dimension reduction)。
Q5:阐述参数模型和非参数模型的区别及各自优缺点。
参数模型中的f (x)形式在训练前就已经确定,如线性回归模型在训练前就会确定y=a0+a1x1+a2x2+…这样的形式。常见的参数模型包括线性回归模型、逻辑回归模型、朴素贝叶斯模型。
而非参数模型在训练前并没有对目标函数限定其形式,它是通过训练不断修改目标函数的形式的。常见的非参数模型有SVM模型、决策树模型、随机森林模型等。
Q6:建模的实际工作中常会遇到哪些问题?
1. 冷启动问题,冷启动是指没有建模样本,包括以下两种情况。
1)业务未开展,故无样本。
2)业务虽已开展且有样本,但因未到首次应还款时点,故无表现样本。
2. 样本量不足,样本量不足与冷启动不同,冷启动是没有建模样本,而样本量不足是指虽然有表现样本,但好样本或坏样本单方面不足(更常见的是坏样本不足),包含以下两种情况。
1)业务虽已开展且有贷款到表现期,但没有坏样本。
2)业务虽已开展且有贷款到表
3. 样本不均衡问题
4. 缺自变量问题,缺数据其实包含两个层面的含义,一方面是缺样本,另一方面是缺自变量。前面介绍的3种情况:冷启动、样本量不足和样本不均衡都是在样本维度(即行维度),对于列维度即缺少自变量的情况也很常见。缺自变量问题的解决方案如下。
Q7:构建一套指标体系的整体思路是什么?
构建指标体系应该“纵向”和“横向”相结合,纵向指的是梳理出分析问题的整个流程,比如对于电商产品,需要分析出用户从进入网站到最终下单的整个流程;对于工具类产品,则需要关注用户使用过程中的体验以及用户流失情况。有了纵向分析的过程,还需要横向拓展不同的维度,如基于用户画像的人群分类、根不同业务背景的时间拓展以及业务线的划分。最后将纵向和横向的结果相结合,就得到了一套完整的指标体系。
横向一般包括时间维度和用户维度。
Q8:用户行为的核心节点有哪些?如何有针对性地设计指标?
了解用户行为的核心节点,实际上就是纵向分析的过程。互联网公司大多针对C端用户进行分析,这里就以C端用户为例进行介绍。对于C端用户,核心的三个节点是新增、活跃、留存/流失,大多数分析都是围绕这三个节点进行的,整个流程如图5-1所示。
可以看到,针对新增、活跃、留存/流失这些节点,可以很多指标,但主要是绝对数量和百分比。
● 对于新增用户,指标有新增用户数量、新增用户留存率、新增用户活跃率等。
● 对于活跃用户,指标有活跃用户数量、活跃用户中的新增用户数量、活跃用户中的老用户数量等。
● 对于老用户,指标有老用户数量、老用户流失率、老用户唤醒率等。
● 对于流失用户,指标有流失用户数量、流失用户与新增用户比率等。
Q9:针对不同的人群,如何设计相应的报表?
报表的受众主要分为三类:领导层、业务层和客户,三者虽然都要关注报表数据,但是关注点不同。
● 领导层,提供给领导层的一定是最核心的指标数据,并且要采用最直观的展现方式。由于领导层每天要接收大量的来自不同业务线或者部门的信息,需要在短时间内获取最直观的业务数据,以便制定下一步的策略。因此,提供给领导层的通常是邮件报表,并且在邮件报表中选取最核心的指标数据,将变化趋势直观地表现出来,使领导层对核心数据的变化情况一目了然。
● 业务层,不同于领导层关注最核心的指标数据,业务层需要对所有的相关数据都能够做到及时监控和分析,因此提供给业务层的数据务必要全面,能够将各个维度的信息都展现出来。所以,通常将提供给业务层的数据集中展现在数据看板中,并且可以根据需要进行实时或者准实时更新,当数据出现波动或者异常时,能够第一时间通知到业务方进行排查。
● 客户,比如电商公司提供相应的报表给店铺或者供应商,指导其进行策略调整,也会采用数据看板,但是信息量会有所减少,因为要排除敏感数据和次要信息,主要围绕如何帮助他们提高销售额或者达到其他目标而更加有针对性地展示相关数据。
Q10:用户画像的数据源有哪些?
用户画像的数据源主要有两种,其中一种是用户基本属性数据,如性别、年龄、地域等;另一种是用户行为数据,如浏览、下单、观看等。
Q11:如何利用标签池中的数据,根据用户画像进行相应的分析?
运动记录