大数据技术架构

IP属地：安徽

实时数仓 | 你想要的数仓分层设计与技术选型
数据仓库概念的提出都要追溯到上世纪了，我们认为在大数据元年之前的数仓可以称为传统数仓，而后随着海量数据不断增长，以及Hadoop生态不断发展，主...

0.1 527 0 1
干货 | Kafka 内核知识梳理，附思维导图
前面我们已经分享过几篇Kafka的文章，最近简单梳理了下Kafka内核相关的知识，涵盖了Kafka架构总结，副本机制，控制器，高水位机制，日志或...

0.1 439 0 0

Hive调优 | Hive常见的几种优化模式
Hive和MapReduce中拥有较多在特定情况下优化的特性，如何利用好相关特性，是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hi...

430 0 0
Hive调优 | Hive常见数据倾斜及调优技巧
Hive在执行MapReduce任务时经常会碰到数据倾斜的问题，表现为一个或者几个reduce节点运行很慢，延长了整个任务完成的时间，这是由于某...

248 0 0
HBase调优 | HBase性能调优之内存篇
这是使用 HBase 最不可避免的一个话题，就是 HBase 的性能调优，而且通常建立在我们对 HBase 内部运行机制比较了解的基础上进行的，...

870 0 0
从原理到参数解析，HBase 刷写与合并机制介绍
HBase 是目前主流的 NoSQL 数据库，是一个高可靠、高性能、高伸缩的分布式 KV 存储系统，本文讲解 HBase 两个核心机制——刷写（...

0.1 721 0 1
一文了解 Zookeeper 基本原理与应用场景
Zookeeper 是一个高性能、高可靠的分布式协调系统，是 Google Chubby 的一个开源实现，目前在分布式系统、大数据领域中使用非常...

0.1 308 0 1

HBase 性能测试之读写P999延时压测实践
我们在使用HBase的时候，必须要能够清楚HBase服务端的性能，这对HBase的合理使用以及性能调优都非常重要，所以一般在使用HBase之前，...

713 0 0
Apache Kafka 版本演进及特性介绍
前段时间有一个同事问到：Kafka 0.8.2 只能使用Zookeeper连接吗？虽然仍有一部分Kafka的老用户在使用 0.8.x 版本，但 ...

0.3 3642 1 3