http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html RDD function calls...
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html RDD function calls...
DStream是一个抽象的概念横向分别是一个DStream,一个是Lines DStream,一个是 World DStream 一个表示取出的一行数据,一个表示分隔后的单个词
spark的 thrift serve r和hive的hive server2类似,有了它之后,sparksql就可以直接用jdbc去连接 是需要对外提供服务的,因此可以配置...
不一定快,但绝对省空间
一. 前提条件 启动hdfs集群 start-all.sh 192.168.4.31:50070 启动hive的metastore服务 node2上启动: service m...
概述 Worker的启动都是通过启动shell脚本 Master启动 master启动从main函数开始,主要启动Rpc环境:RpcEnv(Rpc环境):Akka和Netty...
1、sparksql 内存列存储 2、sparksql的字节码生成技术,合并代码 3、scala 代码优化,尽量减少低效容易jc的代码,例如把 for 循环变成 效率更高的w...
基于spark1.6 创建完SparkContext,然后执行Action算子 当RDD执行Action算子时(形成一个job),会将代码提交到Master上运行, 例如wo...
基于spark1.6 在sparkContext里会创建 DAGScheduler,DAGScheduler 初始化了一个事件阻塞队列(action的触发,一个action ...
基于spark1.6 任务提交流程 下面所说的driver(也叫ApplicationMaster) Spark-submit 提交一个任务到集群,通过Spark-submi...
cd conf [root@spark1 conf]# cp slaves.template slaves [root@spark1 conf]# cp spark-env....
答案是否定的 那么第二次就不会再加载数据了:如下图 ) 将RDD元素从磁盘缓存到内存,相当于persist(MEMORY_ONLY)函数的功能。 但是 spark 是不是只基...
函数式编程更偏向于输入和输出 interface A{ piblice boolean apply(T input); piblice boolean equals(Obje...
Scala Option(选项)类型用来表示一个值是可选的(有值或无值)。 Option[T] 是一个类型为 T 的可选值的容器: 如果值存在, Option[T] 就是一个...
implicit 是scala一个关键字,使scala更灵活和容易扩展。 1.隐式转换函数 implicit def int2str(x:Int):String = x.to...
假如有一笔业务需要审核,审核状态分:未审核,审核中,审核通过,审核不通过。我们在程序里是否可以直接这么写: if(state==1){//1代表未操作 //操作 }else...
java里 jvm在运行时采用类型擦拭的做法,类型已经不能单纯的用class来区分了,比如List和List的class都是Class,然而两者类型(type)却是不同的。 ...
先回顾一下java的内部类 class Outter{ public class Inner {} public void foo(Inner c){ Sys...
类、特质、方法和函数都可以有类型参数 将类型参数放置在名称之后,以方括号括起来 参数类型(不能什么都传,要加限定) 对于参数类型的 class 实际类型会在new对象时推断 ...
Scala Trait调用super方法的线性化是一个难理解的内容,下面让我通过一段代码来推演线性化过程。 源代码: package c5soft class SuperBa...