时间:2019-2-25
一、DATA MINING
1.信息的处理方式——计算机的核心
2.进行数据分析与挖掘(与关系型DB联系紧密)
3.数据与知识
4.定义:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
5.数据挖掘的常用方法:
分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等
二、引言
1.概念描述
1) 数据爆炸问题
2) 我们数据丰富,但信息贫乏!(We are drowning in data, but starving for knowledge.)
3) 解决方法:数据仓库与数据挖掘
联机事务处理(Online transaction processing,OLTP)——针对关系型数据库,如增删改查的操作
数据仓库和联机分析处理(OLAP)——针对数据仓库
2. .....她刚才在说什么??..
3.什么是数据挖掘
从海量数据中抽取出有用的模式或者知识,这些模式或者知识应该是:
非常识性、隐藏的、当前未知的以及潜在有益的。
有的也称,KDD.
从数据仓库的角度来看:数据挖掘——知识发现过程的核心。
KDD的过程:——见常规的数据分析过程+数据挖掘
注意各个过程的数据可见的金字塔形。
4.数据挖掘和KDD在各个领域的典型应用和作用的方面
5.基于何种数据?
关系数据库
数据仓库
事务数据
其他类型的数据:空间数据;流数据;ect.
6.数据挖掘的功能
1)概念描述:数据特征化和数据区分
特征化:数据可分为一类(CLASS)的一般特性或特征;
2) 频繁模式(或频繁项)(如义)
3)关联与相关性 (关联性数值与相关性数值不相同)
4)用于预测分析的分类和回归
分类与回归是两种不同的预测。
分类构造模型,进行分类,用于将来的预测。分类预测类别标号;
分类的表示方式:决策树,分类规则,神经网络等。
回归预测一些未知或者丢失的数值。回归建立连续值的函数模型;
回归的表示方式:逻辑回归等。
7.聚类分析(Cluster Analysis)
聚类分析数据对象而不考虑类标号。
目标:最大化类内的相似性,最小化类间的相似性。
8.离群点分析
离群点:一个数据对象,并不遵从这类数据的通用行为。
有时离群点,和离群点分析很有用,并不总是噪音或乱数据。