1.问题:项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中...
1.问题:项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中...
学习和使用一段时间的spark, 对spark的总结一下,希望对大家有用,不介绍怎么使用, 只从设计上谈谈。 spark解决了什么问题? 说sp...
Spark的Driver本身就是Scheduler,完整的类名叫做CoarseGrainedSchedulerBackend,为什么叫Coars...
现在来学一学spark这个内存计算引擎,主要应用于大规模数据的计算。 一、简介 和MapReduce都是计算引擎,但两者还是有很大区别的,Map...
翻译 Spark 共享变量部分的官方文档(Spark 2.4.3)。 通常,当传递给 Spark 操作 (如 map 或 reduce ) 的函...
概念: NioEventLoop: Channel: ByteBuf: PipeLine: ChannelHandler: 服务器端启动流程: ...
作业的提交做的主要的事情是:通过提交的最后一个rdd的依赖关系来划分stage,在再将stage转换成task,由diver端发送给一个个的将t...
最近在工作讨论中,同事提出了这么一个问题:作用在一个RDD/DataFrame上的连续的多个map是在对数据的一次循环遍历中完成的还是需要多次循...
这是本人第一次发表技术帖,借鉴了很多大神的文章和自己的一些拙见,有什么不正确的大家可以指出来,共同进步 Spark底层RPC通信:记住这里是以事...
硬件:Ubuntu16.04 server 2台软件版本:hadoop-2.6.5.tar.gzjdk-8u191-linux-x64.tar....
专题公告
该专题主要介绍和记录,笔者在学习spark过程中的总结和要点记录。笔者也是刚刚接触spark,所以会从最基础的环境搭建开始介绍,逐步过渡到对spark的深入学习。