240 发简信
IP属地:浙江
  • Resize,w 360,h 240
    spark 源码分析系列 - wordcount 源码分析

    前言 本文主要通过spark wordcount 案例的源码来分析spark中的运行过程。 spark 编程模型 在spark中,RDD被表示为...

  • HBase系列 - HBase Shell操作

    HBase Shell 基本操作 进入HBase客户端命令行bin/hbase shell 查看帮助命令hbase(main):001:0> h...

  • Resize,w 360,h 240
    HBase系列 - 内部机制 MemstoreFlush、StoreFile Compaction、Region Split详解

    前言 HBase以高并发、搞可靠、高性能而闻名,而Compact和Split功能贯穿了hbase的整个写入过程,而熟悉Compact和Split...

  • Resize,w 360,h 240
    HBase系列 - 概念和架构原理

    前言 本文主要介绍HBase基本概念以及架构原理包含数据模型、基础进程组件。再从HBase的写流程和读流程去了解HBase的架构原理。 1 HB...

  • Hive 系列 - 调优经验

    1 Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM empl...

  • Resize,w 360,h 240
    Hive 系列 - 压缩和存储

    1 Hadoop源码编译支持Snappy压缩 1.1 jar包准备(hadoop源码、JDK8 、maven、protobuf) (1)hado...

  • Hive 系列 - 常用函数

    1系统内置函数 1.查看系统自带的函数 2.显示自带的函数的用法 3.详细显示自带的函数的用法 2 自定义函数 Hive 自带了一些函数,比如:...

  • Hive 系列 - DQL 查询数据

    查询语句语法: 1 基本查询(Select…From) 1.1 全表和特定列查询 1.2 列别名 1.3 算术运算符 运算符描述A+BA和B 相...

  • Hive 系列 - DML数据操作

    1 数据导入 1.1 向表中装载数据(Load) 语法 ​ (1)load data:表示加载数据 ​ (2)local:表示从本地加载...