数据挖掘涉及的方面很广,可以是从数据中挖掘知识,提取知识,数据/模式分析,数据考古和数据捕捞。
数据挖掘是从已有数据中去提取所需的知识,很多人把数据挖掘视为数据中的知识发现的同义词,另一些人把数据挖掘视为知识发现的基本步骤,具体步骤如下:(1)数据清理(消除噪声和不一致数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成便于挖掘的形式)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
以上的观点把数据挖掘当做是知识发现的一个步骤,不过,在业界内,通常把数据挖掘表示整个知识发现的过程。故数据挖掘是大量数据中挖掘有趣模式和知识的过程。数据源包括数据库,数据仓库,Web等等。
摘抄自《数据挖掘:概念与技术》