Linux第10课:数据挖掘理论

Linux第10课:数据挖掘理论

时间 2019-03-14 下午3:30

主讲 杨成林

地点 四楼电教室

随着Hadoop技术的成熟,海量数据的存储和计算突破了技术瓶颈。那么,大数据的价值该如何体现?这就是数据挖掘需要解决的问题。数据挖掘不仅是一个技术问题,也是一个理论问题,需要站在理论的高度,认识其客观规律性,为大数据的应用奠定基础。

一、数据挖掘的定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、但又是潜在有用的信息和知识的过程。

数据挖掘又称为数据库中的知识发现,实际上数据挖掘是知识发现过程的一个基本步骤。

知识发现过程如下图所示,由以下步骤的迭代序列组成:

1,数据清理(消除噪声和删除不一致的数据);

2,数据集成(多种数据源可以组合在一起);

3,数据选择(从数据库中提取与分析任务相关的数据);

4,数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);

5,数据挖掘(基本步骤,使用智能方法提取数据模式);

6,模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式);

7,知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。



二、数据挖掘的流程

基本步骤包括:

1,业务理解

2,数据理解

3,数据准备

4,数据建模

5,模型评估

6,模型实施

三、数据挖掘的应用

1,谷歌趋势分析:

通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势;和官方机构相比,谷歌能提前一两周预测流感暴发,预测结果与官方数据的相关性高达97%;2009年甲型H1N1流感暴发时,“谷歌流感趋势”系统大显身手。这已经成为大数据应用的一个经典案例。

2,塔吉特的“数据关联挖掘”:

美国第三大零售商塔吉特,通过分析所有女性客户购买记录,可以“猜出”哪些是孕妇。其发现女性客户会在怀孕四个月左右,大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。推算出预产期后,就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户。塔吉特还创建了一套购买女性行为在怀孕期间产生变化的模型,不仅如此,如果用户从它们的店铺中购买了婴儿用品,它们在接下来的几年中会根据婴儿的生长周期定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。

3,NBA优化战术组合:

大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。系统分析显示魔术队的两个后卫安佛尼.哈德卫和伯兰.绍在前两场中被评为-17分。但当哈德卫与替补后卫达利尔.阿姆斯创组合时,魔术队得分为正14分。魔术队增加了阿姆斯创的上场时间,此着果然见效;Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 什么是大数据?不要再举例说啤酒和尿布的例子了,Gartner的分析师Doug Laney在讲解大数据案例时提到过8...
    晨硕杂谈阅读 10,247评论 0 16
  • 你见过合欢花吗,扇子一样细密的,柔韧的小花朵。 “合欢花是长在树上的,玫红色的小扇子一样,风风火火的燃烧过花期,凋...
    丝绒小猫阅读 3,624评论 1 3
  • 我有想追随的人。 一直所有的生活都是一团乱麻,平淡的,无聊的,得过且过的混着,数着日子过。 有一天,看到了一个培训...
    舍得吧阅读 1,517评论 0 1
  • 由第一季《演员的诞生》,到第二季的《我是演员》,我一直都认为这是一个质量上乘的综艺节目。与其说是综艺节目,更像是一...
    只言片语看风景阅读 3,077评论 0 0
  • 上图可以看出来Exception和Error都是继承了Throwable类,在Java中只有Throwable类型...
    lucode阅读 1,378评论 0 0

友情链接更多精彩内容