2019-02-01

大数据技术的产生以及发展

谷歌的三篇论文

分布式文件系统 GFS
大数据分布式计算框架 mapreduce
NoSQL数据库系统 BigTable

大数据计算

离线计算——批处理计算(MapReduce、Spark)
实时计算——流式计算 (Storm 、Spark Streaming)
Flink 同时支持离线和实时计算

大数据应用场景

数据分析
数据挖掘
机器学习

大数据技术体系

大数据技术的发展

搜索引擎时代:
谷歌的GFS系统,将数千台机器上的数万块磁盘统一管理,然后当作一个文件系统,统一存储所有的网页。用这些网页构建搜索引擎、对所有文件进行词频统计,然后根据PageRank算法计算网页排名。

数据仓库时代:
Facebook推出了HIVE,使得可以在Hadoop上进行SQL操作,实现数据统计与分析。

数据挖掘时代:
大数据技术的广泛使用,不仅限于数据分析、还可挖掘出更多的数据价值,进行关联分析等。

机器学习时代:
通过大数据技术,可以将所有的历史数据收集起来,统计其规律,进行预测正在发生的事情。

总结

大数据从搜索引擎到机器学习,发展的思路其实一直未变,就是要发现数据中的规律并为我们所用。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容