IP属地:广东
Java内存模型 Java 虚拟机在执行 Java 程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自的用途,以及创建和...
在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。 表设计层面优化 利用分区表优化 ...
什么是RDD? RDD是Spark中的数据抽象,全称弹性分布式数据集(Resilient Distributed Datasets)。RDD可以...
Redis 支持哪几种数据类型? string:最基本的数据类型,二进制安全的字符串,最大512M list:按照添加顺序保持顺序的 字符串列表...
Zookeeper是什么 Zookeeper是一个分布式的,开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hado...
实时计算的三种语义 At-most-once:最多一次。每条数据记录最多被处理一次,也就是说数据会有丢失(没被处理掉)的可能。 At-least...
什么是ETL ETL用来描述对原始数据从抽取、清洗转换和加载的过程。ETL按照统一的规则集成并提高数据的价值,是将数据从数据源向目标数据仓库(D...
Spark应用Yarn-Client模式运行架构原理解析 Spark Yarn Client向Yarn的ResourceManager申请启动A...