数据挖掘概况

一、数据挖掘的定义

数据挖掘(Data mining,简称DM),是指从大量的数据中,通过统计人工智能,机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销、其他学科等多门学科的知识。

数据挖掘的误区

认为:数据挖掘是某些大量数据操作的算法,这些算法能够自动地发现新的知识
数据挖掘需要非常高深的分析技能,需要精通高深的算法,需要熟练程序开发。
实际:数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果。
实际上,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

二、数据挖掘和数据分析的区别

数据分析:

定义:根据分析目的,用适当的分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
作用:现状分析、原因分析、预测分析
方法:对比分析、分组分细、交叉分析、回归分析等
结果:指标统计量结果,如综合、平均值等

数据挖掘:

定义:从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
作用:解决四类问题:分类、聚类、关联、预测
方法:决策树、神经网络、关联规则、聚类分析等
结果:输出模型或规则

模型与算法:

模型:

  • 定量:数学公式,用来描述需要解决的问题
  • 定性:是包含一种或多种定义的规则,用于指导并帮助解决某类问题

算法:实现数据挖掘技术、模型的具体步骤与方法

三、数据挖掘常见问题

从商业角度,需要解决哪些问题?

用户流失预测——分类问题
促销活动响应——分类问题
目标市场细分——聚类问题
交叉销售提升——关联问题
未来销售预测——预测问题

(一)分类特点
  • 分类型目标变量(Y)——有监督学习
  • 使用已知目标分类的历史样本来训练
  • 需要对未知分类的样本预测所属的分类
    常见分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等
    分类商业问题:
    用户流失预测促销活动响应用户信用评估等
(二)聚类特点
  • 无分类目标变量(Y)——无监督学习
  • 物以类聚思想
    常见聚类算法有:划分算法、层次聚类、密度聚类、网格聚类、基于模型聚类等
    聚类商业问题:
    目标市场细分现有客户细分等
(三)关联特点
  • 无目标变量(Y)——无监督学习
  • 基于数据项关联,识别频繁发生的模式
    常见的关联算法:Aprior算法、Carma算法、序列算法
    关联商业问题:
    哪些商品同时购买几率高如何提高商品销售和交叉销售等
(四)预测特点
  • 数值型目标变量(Y)——有监督学习
  • 需有已知目标值的历史样本来训练模型
  • 对未知的样本预测其的目标值
    常见的预测方法有:简单线性回归分析、多重线性回归分析、时间序列等
    预测商业问题:
    未来气温预测GDP增长预测收入、用户数预测等

四、数据挖掘流程

CRISP-DM数据挖掘方法论:

  • 1、商业理解
  • 2、数据理解
  • 3、数据准备
  • 4、模型构建
  • 5、模型评估
  • 6、模型部署
    阶段一:商业理解
  • 确定商业目标
  • 确定挖掘目标
  • 制定项目方案
    阶段二:数据理解
  • 数据收集
  • 数据描述
  • 数据探索
  • 质量描述
    阶段三:数据准备
  • 数据导入
  • 数据抽取
  • 数据清洗
  • 数据合并
  • 变量计算
    阶段四:模型构建
  • 准备训练集合验证集
  • 选择使用建模技术
  • 建立模型
  • 模型对比
    阶段五:模型评估
  • 技术层面:
    设计对照组进行比较
    评估指标:命中率、覆盖率、提升度等
  • 业务经验
    阶段六:模型部署
  • 营销过程跟踪记录
  • 观察模型衰退变化
  • 引入新的特征优化迷行
  • 模型写成程序固化到平台
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容