本文主要翻译至链接且不局限于该文内容,也加入了笔者实践内容,翻译水平有限,欢迎指正,转载请注明出处。 概述 每个Spark应用程序都包含了一个驱动程序,用于执行用户编写的ma...
经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能...
读图时代,图片不够精美绚丽,怎能够吸引住越来越挑剔的眼睛。而拥有“盛世美颜”的图片是怎样炼造而成的呢?大圣众包(www.dashengzb.cn)小编介绍5款交互式图表Pyt...
1 背景知识 1.1 解决问题 解决HDFS不支持单条记录的快速查找和更新的问题。 1.2 适用情况 存在亿万条记录的数据库,只有千万或者百万条记录使用RDBMS更加合适 确...
Apache Sqoop 概述 使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理。从生产系统加载大块数据到Hadoop中...
翻译自:http://blog.yhat.com/posts/python-random-forest.html 昨天收到yhat推送了一篇介绍随机森林算法的邮件,感觉作为介...
HBase架构图理解 HMaster链接Zookeeper的目得:HMaster需要知道哪些HRegionServere是活的及HRegionServer所在的位置,然后管理...
整个shuffle的流程图 Map Shuffle的作用以及相应的设置 partition过程:输入的<key,value>对经过map()处理后输出新的<key,value...
列式存储和行式存储 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 ** 行存储的特点: **查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应...
Hive表数据的导入 从本地导入 load data local inpath 'local_path' into table table_name; 从hdfs导入 loa...
前言 GitHub地址:https://github.com/guofei1219 背景 统计新渠道进件数量 SparkSQL操作RDD两种方式对比 1.使用反射推断Sche...