数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程
数据挖掘是利用统计学和机器学习的技术,探求那些符合市场、客户行为的模式
数据挖掘为数据仓库提供了有效的分析处理手段。数据仓库为数据发掘准备了良好的数据源,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境
数据挖掘功能有如下几类:概念描述、关联分析、分类和预测、聚类分析、孤立点分析、演变分析等
概念描述指的是对某种对象的内涵特征进行概括,概括就是概念描述的本质。最简单的数据总结方法是计算出数据库的各个字段上的求各值、平均值、方差值等统计值,或者用直方图、饼状图的图形方式表示
数据挖掘中的概念描述主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程
描述可以分为特征性的描述与区别性的描述。前者描述某类对象的共同特征,输出可以采用多种形式,包括变图、柱状图、曲线、多维数据立方体、含交叉表的多维表,且描述结果也可以用概化关系或规则形式表示。后者描述异类对象之间的区别,将目标类对象的一般特性与一个或多个对比类对象的一般特性比较,而这种比较必须具有可比性的两个或多个类之间进行的,数据区分的输出类似于数据特征化,但它应该包括比较度量,帮助区分目标类与对比类
关联分析用于发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。反映一个事务与其他事务之间的相互依存性和关联性
分类和预测:在根据样本数据寻求相应的分类规则,然后根据规则来确定某一非样本个体或对象是否属于某一特定组或类。在这种分类知识发现中,样本个体或对象的类标记是已知的。数据挖掘的任务在于从样本数据的属性中发现个体或对象分类的一般规则,从而根据该规则对非样本数据对象进行分类。如决策树分类方法、贝叶斯分类方法、规则归纳等
聚类分析:用于发现在数据库中未知的数据类。这种数据类划分的依据是“物以类聚”,即考察个体或对象的相似性,满足相似性条件的个体或数据对象划分在一组内,不满足相似条性条件的个体或数据对象划分在不同的组