scandly - 简书

scandly

IP属地：台湾

常用算子
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html RDD...

3169 0 1
离散流 DStream 概念
DStream是一个抽象的概念横向分别是一个DStream，一个是Lines DStream，一个是 World DStream 一个表示取出的...

4423 0 1

SparkSQL thrift server 搭建
spark的 thrift serve r和hive的hive server2类似，有了它之后，sparksql就可以直接用jdbc去连接是需...

0.1 6970 0 3
SparkSql 内存列存储
不一定快，但绝对省空间

3352 0 1
SparkSQL thrift server环境搭建
一．前提条件启动hdfs集群 start-all.sh 192.168.4.31:50070 启动hive的metastore服务 node...

4367 0 3
spark-源码 master和worker启动
概述 Worker的启动都是通过启动shell脚本 Master启动 master启动从main函数开始,主要启动Rpc环境：RpcEnv（Rp...

3332 0 1
sparksql为什么比hive on spark 快
1、sparksql 内存列存储 2、sparksql的字节码生成技术，合并代码 3、scala 代码优化，尽量减少低效容易jc的代码，例如把 ...

7808 0 1

spark-源码-action算子触发
基于spark1.6 创建完SparkContext，然后执行Action算子当RDD执行Action算子时（形成一个job），会将代码提交到...

5077 0 1
spark-源码-sparkContext DagScheduler
基于spark1.6 在sparkContext里会创建 DAGScheduler，DAGScheduler 初始化了一个事件阻塞队列（acti...

2187 0 1