Extractor Object是有unapply方法的对象。apply方法像是构造函数,可以带参数以及创建对象,unapply方法根据对象尝试...
正则表达式是用于找出数据中模式的字符串。任何字符串都可以使用.r方法转换为正则表达式。 在上面例子中,numberPattern是一个Regex...
缓存/持久化 和RDD类似,DStream允许开发者将流数据持久化到内存。使用在DStream上使用persist()方法会自动持久化DStre...
DStreams转换(Transformation) 和RDD类似,转换中允许输入DStream中的数据被修改。DStream支持很多Spark...
本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法...
链接 和Spark类似,Spark Streaming通过Maven Central提供。为编写Spark Streaming程序,需要添加下面...
概述 Spark Streaming是核心Spark API的扩展,对实时数据流地处理具有可扩展,高吞吐量和容错特性。数据可从很多源获取,如Ka...
共享变量 通常,当一个函数传递给在远程集群节点上执行的Spark操作(如map或reduce)时,函数使用的是所有变量的独立副本。这些变量会拷贝...
介绍 概述 Apache Flume是一个分布式的,可靠的,高可用的系统,用于高效地从多个不同的数据源收集,汇总及迁移大量日志数据到集中的数据储...