![240](https://cdn2.jianshu.io/assets/default_avatar/13-394c31a9cb492fcb39c27422ca7d2815.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
先看两张图,了解一下从磁盘读取和存放数据的大致描述。 读取数据 上图展示的是,磁盘中数据是如何存放的,即每道扇区的字节数为512B,那么按照上图的情况。 数据存储 上图表示,...
参考dlink实现血缘解析程序流程图 parse阶段获取SqlNode:编写explainSqlRecord(String statement, ExplainDetail....
背景 本篇为Hudi概念和特性相关介绍。依据于官网和相关博客资料,融入了个人理解。内容可能会有疏漏,欢迎大家指正和补充。 Hudi概念 Apache Hudi是一个Data ...
Arthas 是基于 ASM 和 Java Agent 技术实现的 Java 诊断利器。① ASM 是指一个 Java 字节码操作框架,用于动态生成或者增强 class。② ...
如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和...
四、Spark Streaming Spark Streaming 是一个基于 Spark Core 之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有...
Flink提供了三种通用的基于迭代的图计算模型的实现(Flink-Gelly:Iterative Graph Processing[https://www.jianshu...
1.序篇 flink sql 知其所以然(十四):维表 join 的性能优化之路(上)附源码[http://mp.weixin.qq.com/s?__biz=MzI0NTIx...
一、问题分析概览 流计算作业通常运行时间长,数据吞吐量大,且对时延较为敏感。但实际运行中,Flink 作业可能因为各种原因出现吞吐量抖动、延迟高、快照失败等突发情况,甚至发生...
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则 ...
数据血缘 数据血缘(data lineage)是数据治理(data governance)的重要组成部分,也是元数据管理、数据质量管理的有力工具。通俗地讲,数据血缘就是数据在...
写在前面 近些年,大数据背后的价值也开始得到关注和重视,越来越多的企业开始保存和分析数据,希望从中挖掘大数据的价值。大数据产生的根本还是增量数据,单纯的用户数据不足以构成大数...
[TOC] 68. 树中两个节点的最低公共祖先 68.1 二叉查找树 在二叉查找树中,两个节点 p, q 的公共祖先 root 满足 root.val >= p.val &&...