今天互联网不断发展,逐渐深入我们生活的各个层面,随之而来的是数据量的指数级增长,所以,大数据是近几年广受关注的一个概念。。很久以前,人类就学会了通过分析数据获取有价值的结论。有时,影响结论的因素过多,采样的数据无法有效保留所有因素的影响,得出的结论就不够有效。如果不使用采样,而原始数据规模巨大,我们就需要改进数据处理的手段。
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。Hadoop生态很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等,涉及从算法到实现到操作到应用。
多数章节对自己的要求都是了解和能用即可,唯独ZK一章爱不释手,从算法到实现到操作到应用讲的真是好。 系统性学习不还是得看经典书籍。
hadoop学习:《Hadoop权威指南第4版》中文PDF+英文PDF+代码,《Hadoop权威指南第4版》中文PDF,734页,带书签目录;英文PDF,805页,带书签目录。配套源代码。
下载: https://pan.baidu.com/s/1bINLu_pdl3cu8W7vv63bFg 提取码: y77c
结合理论和实践,《Hadoop权威指南第四版》由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例。
《Spark快速大数据分析》中文PDF,231页,带书签目录,文字可复制。英文PDF,274页,带书签目录,文字可复制。
下载: https://pan.baidu.com/s/1sJHswbudVO-HihYXEpuLYg 提取码: 6eha
使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
学习《Spark高级数据分析第2版》中文PDF+英文PDF+源代码:《Spark高级数据分析第2版》中文PDF,452页,带目录,文字可复制;英文PDF,455页,带目录,文字可复制;有源代码。
下载: https://pan.baidu.com/s/19IiWLQ19KYMpW3rP8HDx9Q 提取码: 8krw
《Spark高级数据分析第2版》由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。涵盖模式如下:
● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测
● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析
● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据