业务理解 business understanding
优先想好问题:what decision needs to be made?
what information is needed to inform that decision?
what type of analysis will provide the information to inform that decision
数据理解data understanding
根据业务经验和背景,穷尽影响因素,可能特征
数据准备 data preparation
数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括:制表、记录、数据变量的选择和转换,以及为适应建模工具而进行的数据清理等等。” —— 维基百科
数据准备的步骤包括数据收集、清理、格式化、混合和取样。收集数据时,你可能需要从组织内的多个来源收集数据。在进入分析之前,还需要进行一些处理,如数据格式不正确和数据缺失。你可能希望将数据与其他数据集进行混合或组合以增加其他变量,类似于excel中的vlookup。还可能将数据进行抽样,用于更方便管理的记录数。
分析与建模 analysis/modeling
“在这一阶段,你要选择和应用各种各样的建模方法,并将模型的参数校准为最佳值。通常情况下,同一种数据挖掘问题类型有多种适用的方法。一些建模方法对数据形式有具体的要求。因此,往往需要返回数据准备阶段。” —— 维基百科
重要步骤
确定用什么方法来解决问题
确定有助于解决问题的重要因素或变量
构建解决问题的模型
运行模型并移至模型评估阶段
build predictive model->validate model->repeat process->analysis
模型评估
很多时候,建立一个有信心的预测模型需要经过反复的迭代过程。如增加一个新的变量或者干脆换一种方法。不要把所有数据扔进一个模型并期望一个好的结果。最好的模型是通过有条理的分析创建的。在某些情况,你也许需要重启整个问题解决过程,并根据你在此过程中学到的一些经验和结论,修改一些假设和决策。
在项目的这一阶段,你已经有一个或多个,从数据分析角度看,具有较高质量的模型。在进行模型的最终部署之前,务必要更全面地评估模型,并检查构建模型所执行的步骤,确保其能正确实现业务目标。一个关键目标是确定是否存在一些尚未充分考虑的重要业务问题。在此阶段结束时,应对数据挖掘结果的使用做出决定。
展示/可视化presentation/visualization
使用的演示和可视化模型应该根据观众和分析本身来决定。不能仅仅只是展示和抛出结果。只用正面的数据分析来表现,并不是传达发现结果的最好办法。最好的方法,是讲述一个满足决策需求的数据的故事。有时候,特别是对于复杂的分析来说,你也许希望带着观众走过用来分析的问题解决流程,强调你在过程中作出的决策和假设。
三个重点:visualize complex data;reference the data;measure success
methodology map
非预测性分析(Non-Predictive Analysis)
非预测性分析可划分成四种类型:地理空间(Geospatial)、细分(Segmentation)、聚合(Aggregation)以及描述性(Descriptive)
地理空间分析(Geospatial Analysis)
这种类型的分析使用基于地理位置的数据来推导结论。例子有:通过地理区域识别客户,计算店铺之间的距离以及根据客户位置创建交易区域
细分分析(Segmentation Analysis)
细分是将数据分组的过程。分组可以是简单的,比如购买不同东西的客户,也可以是复杂的,比如根据客户的人口特征统计来识别相似的店铺
聚合分析(Aggregation Analysis)
此方法用于计算跨组或跨维度的数据,在数据分析中很常用。举例来说,你可能想要某个销售员的月度销售汇总,将其每个月的销售额相加即可。然后,你可能需要跨维度进行汇总,比如各销售领域的月度销售汇总。聚合通常用于报告,以达到划分和区别信息的作用,有助于管理层制定决策和观察表现。
描述性分析(Descriptive Analysis)
描述性统计可提供一个数据样本的简单概括。比如说计算一所学校申请者的平均 GPA,或者计算一个职业棒球员的击球平均水平。在我们的电力供应案例中,我们可以使用描述性统计来计算每小时、每天或某一天的平均温度。
一些常用的描述性统计包括平均值、中位数、众数、标准方差和四分位差。mean medien mode standard deviation and interquartile range
预测性问题
数据丰富(Data Rich) vs 数据不足(Data Poor)
你有想要预测的数据吗?如果有,你可以进入数据丰富路径,否则,你只能选择数据不足路径。如:新产品销量预测是一个数据不足的案例。
数据不足:A/B 测试
如果没有足够的可用数据来解决问题,就需要设置一个实验来帮助我们得到想要的数据。给出特定商业情景的实验通常指的是 A/B 测试。
数据丰富:预测变量数值型还是类别型 numeric or classification(number or category)
regression model or classification model
数值型变量(Numeric Variables)的种类
三种最常见的数值型变量是连续型、基于时间型以及计数型。
连续型(Continuous)
连续型变量能包含一个范围内的所有数值。打个比方,你的身高能测量到多个小数位的精度,我们不会以每英寸的间隔成长。
基于时间型(Time-Based)
基于时间的数值型变量是预测在某一段时间内会发生什么的一种变量,常常与“预报”有关。
计数型(Count)
计数型变量是离散的正整数。它们被称为计数数字是因为被用来分析能够计数的变量。在商业中这类型的变量并不常见,我们不会在课程中涵盖这部分的内容。
非数值型变量(Non-Numeric Variables)
非数值型变量常常被称为分类(categorical)变量,因为变量的值用离散数字来表现可能的数值和类别。比如电子设备是否会在 1000 个小时内出故障;或者一个客户将会按时付款、拖延付款还是拖欠付款;或者某店铺被划分为大、中、小三种类型之一。
分类模型:二元和非二元(Binary and Non-Binary)
当给分类变量建模时,可能的结果数量是一个重要参数。如果只有两种可能的分类结果,比如是和否,或者对和错,那么这个变量就被称为二元变量。
如果有多于两种的分类结果,比如小、中、大或者按时付款、拖延付款、拖欠付款,那么该变量就被称为是非二元变量。这节课的重要内容是要能够决定是否使用分类模型以及是否应该使用二元模型或非二元模型。
Ben Burkholder 有一门讲解分类模型的课程,将深入探讨这些不同种类的模型。