基于HADOOP的数据挖掘平台分析与设计 http://www.dzsc.com/data/html/2013-12-12/104633.html
2.数据挖掘流程
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为规则、概念、规律及模式等。数据挖掘主要由以下步骤组成:
①数据预处理数据
预处理阶段主要为数据挖掘准备好数据。
一般来讲主要包括数据清理和数据集成。对于大量的数据,难免的存在着噪声或不一致的数据。对于存在这些问题的数据源,我们必须进行数据预处理。现在,数据挖掘面对的挖掘对象的种类越来越多。半结构数据、web数据、来自云的数据等各种数据形式层出不穷。如何将数据挖掘技术使用到这些不同的数据结构中,数据预处理是非常重要的步骤和技术。它对于挖掘结果有着重要的影响。
②数据挖掘
一旦对数据的预处理工作完成,数据挖掘工作就开始了。这是整个数据挖掘过程的基本步骤,也就是使用智能的方法来提取数据模式的过程。数据挖掘阶段,根据挖掘任务的不同,我们会使用不同的技术和处理方法。常见的数据挖掘任务包括特征化、区分、分类、关联分析、聚类等。这是数据挖掘过程中最重要的步骤。
//
一、数据挖掘技术概述
作为一门快速发展的技术,数据挖掘引起了信息产业界和社会的广泛关注。数据挖掘技术跨越多个学科,无论是数据库技术、机器学习、统计学、模式识别,还是神经网络,还是人工智能,数据挖掘都能从中吸取营养,不断发展。如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。
1.数据挖掘发展历程与分类
数据挖掘由单个算法,单个系统到并行数据挖掘与服务的模式,经历了数据挖掘软件开始和数据库结合、多种数据类型融合、分布式挖掘等多个过程。到今天,数据挖掘软件发展的历程,可以说是进入基于云计算的数据挖掘。
由于数据挖掘是一个交叉学科领域,是在包括机器学习,模式识别等多个学科的基础上发展而来。依赖于我们所用的数据挖掘方法,我们又可以使用其他学科的多种技术,如神经网络、模糊或粗糙集合论、知识表示等。
//
三、基于HADOOP的数据挖掘系统设计
通过对典型的数据挖掘系统的分析和研究,我们可以利用HADOOP平台集群巨大的存储和计算能力,组建基于HADOOP的数据挖掘系统。
1.基本设计思想
在经典的数据挖掘系统中,有的模块不需要很大的计算量,而有的模块需要非常大的计算量。充分利用HADOOP的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。我们可以采用分层的设计思想。在底层,使用HADOOP来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。其流程如下:
①存储
在整个系统中,我们可以使用HDFS来存储文件和数据。HDFS具有很高的数据吞吐量,并且很好的实现了容错机制。HDFS提供了多种访问接口,包括API以及各种操作命令。使用HDFS,我们可以为原始的大数据集提供存储空间,对临时文件进行存储,为数据预处理、数据挖掘过程提供输入数据,同时输出数据我们也保存在HDFS中。
②计算
在系统中,我们可以使用MapReduce将数据挖掘系统中具有大计算量特征的各个子模块的计算任务发布到集群中的各个节点以实现并行计算。MapReduce具有很好的伸缩性和扩展性,它屏蔽掉底层,通过提供编程接口使我们可以快速的实现各种算法的并行方式。实现过程中我们都需要紧紧结合HDFS.