用户行为日志 信令数据 cell mapWithState DStream 整合RDD == transform 数据一:日志信息 DStream domain,traff...
Spark Streaming 基于Spark之上的流处理 流:source ==> compute ==> store 离线是特殊的流 letting you write ...
Function functions.scala hobbies.txt alice jogging,Coding,cooking 3 lina travel,danc...
External Data Source API 外部数据源 MapReduce Hive Spark 加载数据 格式:json、parquet、text、jdbc........
DataFrame python pandas R RDD MapReduce DataFrame vs Dataset(1.6) DS: Java Scala DF: 4 ...
1.核心概念 broker: 进程 producer: 生产者 consumer: 消费者 topic: 主题 partitions: 分区 (副本数) consumergr...
Spark SQL IOE SQL:schema + file select ... from xxx where..... SQL on Hadoop Hive Impal...
下载地址: Zookeeper: http://mirror.bit.edu.cn/apache/zookeeper/current/ Scala: http://www.s...
Kafka: 消息中间件 -->分布式流式平台 MQ Redis Kafka Flume 生产者 source Broker channel 消费者 sink 正常部...
collect collect countByKey countByValue collectAsMap groupByKey vs reduceByKey val rdd=...
Spark on YARN 将spark作业提交到yarn上去执行 spark仅仅作业一个客户端 ./spark-submit \ --class org.apache.sp...
Application a driver program + executors SparkContext = application spark-shell ? appli...
x.y.z 1.6.1 2.3.1 2.2.2 RDD transformation: lazy map filter union flatMap mapPartition ...
Hadoop的HDFS HA、Yarn HA集群部署 1.HDFS NN SNN(secondary) 热备 NN(active) 挂了 NN(standby)--》acti...
Hive高级第二部分: *****Hive:复杂数据类型、JDBC编程ZK: Compression压缩比解压速度1G的没压缩数据:1G的gzip压缩数据:codec:我...
ZK 1) 高可用: HDFS/HBase/Spark HA2) API:ZK/Curator开发:Java/Scala操作ZKKafka:offset可以存储在ZK =...
python官网给出的编程规范 1.Use 4-space indentation, and no tabs. 2.Wrap lines so that they don’t...
anaconda3下载地址 官网:https://www.anaconda.com/download/ 百度云链接:https://pan.baidu.com/s/17jHe...
.../page_views/201808082008 .... .../page_views/201808082009 .... ./flume-ng agent \ --...