##数据挖掘平台分析与设计--基于HADOOP的

基于HADOOP的数据挖掘平台分析与设计 http://www.dzsc.com/data/html/2013-12-12/104633.html

Paste_Image.png

2.数据挖掘流程
  数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为规则、概念、规律及模式等。数据挖掘主要由以下步骤组成:
  ①数据预处理数据
  预处理阶段主要为数据挖掘准备好数据。
  一般来讲主要包括数据清理和数据集成。对于大量的数据,难免的存在着噪声或不一致的数据。对于存在这些问题的数据源,我们必须进行数据预处理。现在,数据挖掘面对的挖掘对象的种类越来越多。半结构数据、web数据、来自云的数据等各种数据形式层出不穷。如何将数据挖掘技术使用到这些不同的数据结构中,数据预处理是非常重要的步骤和技术。它对于挖掘结果有着重要的影响。
  ②数据挖掘
  一旦对数据的预处理工作完成,数据挖掘工作就开始了。这是整个数据挖掘过程的基本步骤,也就是使用智能的方法来提取数据模式的过程。数据挖掘阶段,根据挖掘任务的不同,我们会使用不同的技术和处理方法。常见的数据挖掘任务包括特征化、区分、分类、关联分析、聚类等。这是数据挖掘过程中最重要的步骤。


//
一、数据挖掘技术概述
  作为一门快速发展的技术,数据挖掘引起了信息产业界和社会的广泛关注。数据挖掘技术跨越多个学科,无论是数据库技术、机器学习、统计学、模式识别,还是神经网络,还是人工智能,数据挖掘都能从中吸取营养,不断发展。如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。
  1.数据挖掘发展历程与分类
  数据挖掘由单个算法,单个系统到并行数据挖掘与服务的模式,经历了数据挖掘软件开始和数据库结合、多种数据类型融合、分布式挖掘等多个过程。到今天,数据挖掘软件发展的历程,可以说是进入基于云计算的数据挖掘。
  由于数据挖掘是一个交叉学科领域,是在包括机器学习,模式识别等多个学科的基础上发展而来。依赖于我们所用的数据挖掘方法,我们又可以使用其他学科的多种技术,如神经网络、模糊或粗糙集合论、知识表示等。

//
三、基于HADOOP的数据挖掘系统设计

通过对典型的数据挖掘系统的分析和研究,我们可以利用HADOOP平台集群巨大的存储和计算能力,组建基于HADOOP的数据挖掘系统。

1.基本设计思想

在经典的数据挖掘系统中,有的模块不需要很大的计算量,而有的模块需要非常大的计算量。充分利用HADOOP的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。我们可以采用分层的设计思想。在底层,使用HADOOP来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。其流程如下:

①存储

在整个系统中,我们可以使用HDFS来存储文件和数据。HDFS具有很高的数据吞吐量,并且很好的实现了容错机制。HDFS提供了多种访问接口,包括API以及各种操作命令。使用HDFS,我们可以为原始的大数据集提供存储空间,对临时文件进行存储,为数据预处理、数据挖掘过程提供输入数据,同时输出数据我们也保存在HDFS中。

②计算

在系统中,我们可以使用MapReduce将数据挖掘系统中具有大计算量特征的各个子模块的计算任务发布到集群中的各个节点以实现并行计算。MapReduce具有很好的伸缩性和扩展性,它屏蔽掉底层,通过提供编程接口使我们可以快速的实现各种算法的并行方式。实现过程中我们都需要紧紧结合HDFS.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容