一、背景知识 Kafka定义 传统定义:Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 最新定义:Kafka 是一个开源的分布式事件流...
IP属地:河北
一、背景知识 Kafka定义 传统定义:Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 最新定义:Kafka 是一个开源的分布式事件流...
spark-shuffle Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Re...
hive在建表时,通常使用ROW FORMAT DELIMITEDFIELDS TERMINATED BY "|#" 来限定数据中各个字段的分隔符,这种方式只支持单个分隔符,...
@[toc] 一、分片介绍 分片是 Elasticsearch 在集群中分发数据的关键。 把分片想象成数据的容器。文档存储在分片中,然后分片分配到集群中的节点上。当集群扩容或...
【福利】探求ETL本质http://mp.weixin.qq.com/s?__biz=MjM5MTYwMjI3Mw==&mid=2652093433&idx=1&sn=bd5...
1. Why? 通过 maven-shade-plugin 生成一个 uber-jar,它包含所有的依赖 jar 包。 2. Goals GoalDescriptionsha...
【摘要】 Kafka时间轮是Kafka实现高效的延时任务的基础,它模拟了现实生活中的钟表对时间的表示方式,同时,时间轮的方式并不仅限于Kafka,它是一种通用的时间表示方式,...
前言:掌握Hbase的重要性不言而喻,掌握Hbase的设计原理更是重中之重。本文是对HBase原理进行讲解系列文章的开篇,本文尽量详细的从整体上介绍HBase的架构,并对每个...