基于Hadoop和Mahout的K_Means算法设计与实现

基于Hadoop和Mahout的K_Means算法设计与实现_王继重.caj

2.3.2数据挖掘的方法分类
数据挖掘常用的方法有多种多样,它们从不同的方面、不同的角度对数据进行
挖掘分析。相关的方法介绍如下:
(1)分类。此方法通过训练数据找出数据对象的共同特点,然后W此创建分类
或者模型,然后通过它们将数据集中的数据项映射到特定的类别中去。其中具有代
表性的分类方法有:决策树分类法、支持向量机、神经网络法和贝叶斯法等。
(2)回归分析。回归分析方法主要是将数据映射到一个值的预测变量,进而来
发现变量或者各种属性之间的依赖关系。它反映的是事务数据库中的属性在时间序
列上的特征。
(3)聚类。聚类分析是把数据集按照相似性和差异性分口别类。对于任意两个
数据对象,如果是处于相同的类中,那么两者的相似度应该尽量的相近,而如果
处于不同的类中,那么两者之间的相似度要尽量的高。
(4)关联规则。关联规则需要揭示的是数据库中数据项之间存在的相互关系,
也就是要发现符合如下条件的一些事务,如果某个事务出现,这个事务也会随之
出现,那么说明后者与前者之间隐藏着关联规则,也就是相互关系紧密。
(5)特征分析。特征分析也称为特征提取,目的是要从数据库中的数据对象中
提取出特定的与之相关的特征式,这种特征式是该数据集的抽象显示,是为了便
于计算机的理解与识别分析。

(6)变化和偏差分析。在偏差分析中也包含有大量的隐藏的潜在知识,这些知
识对于决策者也是有用的,比如分类分析中的反常实例、模式的例外和观察结果
对期望的偏差等。
(7)预测。预测实际上是对未来行为的某种估计。与分类和回归相同,预测的
效果只能通过等待才能看出。在预测中,历史数据用于解特现在的行为,当模型
训练完成,应用于现行输入时得到的结果是对未来的预测。预测应用包括水灾预
报、机器学习等。解释现在的行为。


2.3.3数据挖掘的基本步驟
数据挖掘是从海量数据中发现并总结出事物发展的规律,得出一个可W利用的
结论的过程。一个功能完整的数据挖掘操作一般都含有如下步骤:
(1)数据选择;基于不同的用户要求,从数据库中选取与该目标有关联的数
据,进行知识提取。
(2)数据预处理:主要是对上一步的数据进行再加工,检查数据的完整性,清
理噪声数据,完成变换和集成数据等工作。
(3)发现模式:是从数据中提炼用户需要的模式的过程。
(4)评估模式:通过不同的标准来对得出的模式进行评估。
(5)表示知识:将发现的模式结合可视化技术呈现给用户。


2.3.4数据挖掘基本算法
数据挖掘中有很多经典的算法,也正是送些经典的算法推动了数据挖掘领域
的发展,常见的经典算法如下图2.5所示。

Paste_Image.png

(1)决策树算法。算法主要是通过构造决策树来寻找数据集中隐藏的划分规
律。其主要目的就是要找到高精度、小规模的决策树。
(2)K巧值算法。用户指定的K值,聚类的时候{^欧几里德距离来划分数
据。算法简单易用应用广泛,在处理大数据集时表现出色。
(3)支持向量机算法。它是一种建立在统计学习理论基础上机器学习方法。它
能够发现对聚类有很强划分作用的支持向量,从而能找出使类与类的间隔距离最
大的分类器。
(4)向量空间模型法。它的主要目的就是将数据转换为加权的特征向量,然后
经过计算数据相似度来划分类别。
(5)K最近邻法。算法根据最邻近的几个数据样本所属的类别来判定待分样本
数据所属的类别。K最近邻法的原理就是极限定理,但类别划分的原则只和相邻
的样本有关。
(6)贝叶斯分类算法。它是一种根据概率统计知识来对数据进行聚类划分的统
计学分类方法。在人脸识别、指纹识别中应用广泛。
(7)模糊聚类算法。算法根据隶属度值最大原则来划分类别,在涉及事物之间
的模糊界限的场合用得比较多。
(8)神经网络算法。神经网络算法是模拟人思维的一种方法。这种非线性思维
方法的特点是分布式存储信息,然后并行协同处理。
(9)网格计算法。网格计算充分利用了汁算机资源,提高了计算机的处理能
力,为计算量庞大的项目提供了有效计算方案。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容