完整解释一个数据挖掘的过程
(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据
(2)数据集成:将来自多个数据源中的相关数据组合到一起
(3)数据选择:根据数据挖掘的目标选取待处理的数据
(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
(5)数据挖掘:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
(6)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识
从商业应用的角度可以把整个数据挖掘过程描述为三个步骤:首先是数据收集,然后利用数据挖掘相关方法提取出有用的知识,最后以提取出来的知识来辅助相应决策者进行决策。
- 数据收集和预处理:收集到的原始数据通常存在缺失值、错误值、不一致值等问题,cannot直接用作知识提取的数据源,需进行数据预处理。
- 知识提取:基于预处理后的数据,使用各种数据挖掘方法(如分类、聚类、关联分析.etc)
- 知识辅助决策 :将提取出来的知识提供给决策者,以辅助制定相应决策。
数据的统计特征
- 平均数
- 中位数
- 截断平均数:指定0-100的百分数p,丢弃高端和低端(p/2)%的数据,然后计算均值。标准均值是对应于p=0%的截断均值。
- min-max规范化
噪声概念、常用处理方法
- 比如,收集野外气象数据的时候,每一个自动化收集站都会收集气压,气温、雨量、方向等数据,如果由于传感器灵敏度的原因,收集的数据会有误差,此为噪音。
- 分箱、聚类、回归:
1、通过考察数据的周围值来光滑有序数据的值。
例子:
假定箱子大小:3
4,8,15
用均值进行光滑:
9,9,9
用边界光滑(用距离最近的值替换原值):
4,4,15
2、回归
用一个函数拟合数据来光滑数据。主要有线性拟合和多远线性拟合等。
3、聚类
通过聚类将类似的值组织成群或者簇,可以直观检测离群点。
举例说明什么是分类挖掘任务、ID3算法、KNN算法、贝叶斯算法
分类与聚类差别在于数据 中是否有类标号,也就是有专家参与。
- 从数据方面,分类挖掘的数据必须有类标号;
- 从算法上,分类主要是建立决策树模型,而聚类主要是将相似的数据归为一类。
书上P52的0.94怎么算出来的
通过高中生回答问卷中的问题系统可判断出该学生适合读大学什么专业——有监督的分类挖掘任务,样本需要来自不同层次的学校。类标号列数据的获取需要对参加过回答问题且考上了大学的学生填写专业并回答是否喜欢本专业。
举例说明什么是聚类挖掘任务、掌握k-means算法、DBSCAN算法、CSI的计算
- 如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信 息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基 于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某 个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。
- 如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户群,采用关联规 则或者隐马尔科夫模型对每个客户群生成消费习惯规则,检测客户的消费模式,这 些规则或模式可以用于商品推荐。其中客户群可以通过聚类算法来预先处理获取得
举例说明什么是关联分析任务、Apriori算法、FP树算法
- 在医学领域:发现某些症状与某种疾病之间的关联,为医生进行疾病诊断和治疗提供线 索;
- 在商业领域:发现商品间的联系,为商场进行商品促销及摆放货架提供辅助决策信息;
- 在地球科学领域:揭示海洋、陆地和大气过程之间的关系。