一、概述 RegionServer接收到客户端的get/scan请求之后,先后做了两件事情: 数据组织(构建scanner体系) 数据过滤 二、...
一、概述 先从Zookeeper中找到meta表所在的Regionserver的信息 根据namespace、表名、以及rowKey查找数据所在...
一、前言 HBase 是一个分布式、可扩展、面向列的适合存储海量数据的数据库,其最主要的功能是解决海量数据下的实时随机读写的问题。 二、核心对象...
我们理解您需要更便捷更高效的工具记录思想,整理笔记、知识,并将其中承载的价值传播给他人,Cmd Markdown 是我们给出的答案 —— 我们为...
一、集合与数组 数组:基本数据、对象都能存储,长度固定。 集合:只能存储对象,长度可变。 二、层次关系 1、Collection:集合类的根接口...
术语含义Application用户编写的Spark应用程序,包括一个Driver和多个executorsApplication jar包含用户程...
一、关系概览 二、Job/Stage/Task关系一个Spark程序可以被划分为一个或多个Job,划分的依据是RDD的Action算子,每遇到一...
一、算子分类1、transformation算子:这类算子并不触发提交作业,完成作业中间过程处理Transformation 操作是延迟计算的,...
一、RDD概念RDD(Resillient Distributed Dataset):弹性分布式数据集,为抽象对象RDD可分为多个分区,每个分区...