第一步
界定业务问题
围绕WHAT/WHY/HOW三个维度进行数据分析问题的拆解。
WHAT 什么发生了?围绕企业所关注的重点指标
• “我们这个月的收入和利润如何?”
• “每个顾客在我店里大概都会花多少钱?”
• “家具类产品里面是沙发卖的好还是桌子好?”
WHY 为什么会发生?关注业务现状背后的原因
• “为什么顾客购买的平均单价在下降?”
HOW 我们能做什么?
• “我们如何能让顾客在宜家店里多花钱?”
第二步
数据收集与评估
想要定义高价值顾客,如何获取数据?
这一环节核心讲解数据收集
• 了解数据库
▫ 熟悉公司数据库的数据结构,宜家案例中为销售表、会员表与产品表
• 数据收取
▫ 围绕“顾客”,提取关键的数据维度
▫ 包括:年龄、性别、购买金额、产品偏好与门店偏好
• 数据拼接
▫ 在会员表、销售表与产品表中找到对应的数据维度
▫ 并找到连接各个表单的字段
• 数据聚合
▫ 将所需要的数据:年龄、性别、购买金额、产品偏好与门店偏好等维度进行拼接与聚合
第三步
数据清洗与整理
数据清洗:当发现数据中的缺失与异常值时进行数据处理。
• 该环节往往有三个步骤:
▫ 第一步:检查原表
▫ 先检查原表是否是同样的数据
▫ 该数据来自哪个数据表?在原表中也存在该问题吗?
▫ 第二步:确认问题
▫ 检查此数据是如何收集而来,和业务团队确认
▫ 如果在原表中也存在问题,是否数据收集过程发生了问题?
▫ 第三步:数据清洗
▫ 从技术角度评估该是否缺失/异常,以及如何对进行处理
▫ 该数据是否存在问题?应该如何处理?
在宜家案例中存在以下问题
• 数据缺失
▫ 表格中用户性别产生缺失
• 数据异常
▫ 有违常识的数据异常
▫ -40,000的收入
▫ 离群值,与其他数据在数值上差异较大
▫ 10,000,000的收入
▫ 和其他数据不同
▫ 99,999的收入
• 数据整理
▫ 需要对城市的格式进行标准化统一,以方便进一步分析
第四步
数据探索与可视化
针对顾客“累计订单金额”这一数据维度
使用直方图快速找到“高价值顾客”
第一步:抽样
• 从所有数据中抽样十万个顾客数据
• 将顾客的累计订单金额从高到底排列
• 每1万个顾客为1组
第二步:制作直方图
• 横轴表示顾客分组
▫ 即前30%的顾客,中间40%的顾客,后30%顾客
• 纵轴则是销售收入的累计总和
▫ 注意:此处是累计值,也就是说第二组对应的数据是第一组+第二组数据的总和
第五步
数据建模与商业决策
如何找到高价值用户的具体特征是怎样的?
仅仅通过‘累计订单金额’定义高价值用户是不够的
要将更多核心变量纳入到分析过程中,
使用python等工具进行聚类分析的建模,
最后获得以下具体画像:
• 城市新居住者
▫ 购买店面发生改变
▫ 送货地址发生改变
▫ 购买产品为生活日用类为主
▫ 注册手机号与所购买城市不同
• 新婚家庭
▫ 顾客为男性为主
▫ 购买产品为家具类为主
▫ 双人床和衣柜等高价格家具关注度高
• 初为父母
▫ 顾客户女性为主
▫ 初次购买儿童/婴幼儿产品类型
使用预测分析模型建模,预测哪些用户会在收到优惠券后使用于购买
在实际业务中: