240 发简信
IP属地:四川
  • 正则表达式

    常见正则表达式 hive 关键字REGEXP https://blog.csdn.net/knqiufan/article/details/80010287 判断日期格式是否...

  • WordCount

    sparkCore:算子实现: SparkSql 实现: java 实现:MapReduce mapper reduce driver

  • hadoop之Sqoop

    Sqoop原理: 将导入导数命令翻译成MR程序来实现,翻译出的MR主要是针对InputFormat和OutputFormat进行定制的; sqoop的作用: 利用Mapred...

  • hadoop之Yarn

    资源调度器:(面试重点) 主要有三种:FIFO,capacityScheduler Fair Scheduler FIFO(先进先出调度器):按照到达的时间排序,先到先服务...

  • 120
    计算机网络

    OSI七层模型: 物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 TCP/IP四层模型: 网络接口层、网络层、传输层、应用层 物理层:为上层协议提供了一个传输数据...

  • 数据库相关

    事务ACID: 原子性:要求操作要么全部执行,要么全部不执行 一致性:事务提交前后只存在两个状态,提交前的状态和提交后的状态,不会有中间状态 隔离性:事务可以并发执行,但是他...

  • 120
    hadoop之Hbase

    Hbase特点: 海量存储:适合PB级别的海量数据,,hbase有良好的扩展性列式存储:根据列族来存储数据的极易扩展:高并发:稀疏存储:数据为空的情况下不占用存储空间 Hba...

  • 120
    hadoop之MapReduce

    MR核心编程思想: MR一般需要分成两个阶段,Map和reduce,map阶段,map task完全并行运行,互不干扰,reduce阶段,reduce task 完全不互相干...

  • 120
    hadoop之HDFS

    HDFS基础: 分布式文件系统,适合一次写入,多次读出的场景,适合用来做数据分析 HDFS的组成架构: Namenode:是master,存储元数据信息,配置副本策略,处理客...

  • SQL特别函数解释

    SQL的执行顺序 count(): group by (): 【拓展】如果分析多个维度的分组结果时,两种方案:(1) 多个group by 的结果 用union all 合并...

  • 120
    hadoop 概述

    Hadoop是什么: 是Apache开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,hadoop通常是指更广泛的概念,hadoop生态圈。 Hado...

  • Elasticsearch7.2安装

    安装Elasticsearch、elasticsearch-head 安装包: 安装elasticsearch: 解压elasticsearch; 首先安装jdk jdk...

  • shell 基本语法

    转载 https://www.jianshu.com/p/d0b061ecf855

  • 数据仓库之表的分类

    数仓表的分类: 实体表:指的是一个现实存在的业务对象,比如商品,商家,用户。 维度表:指的是对应一些业务状态,编号的解释表,也称为码表。比如,地区表,订单状态。 事务性事...

  • 数据仓库之维度建模

    维度建模种类 主要三种模型:星型模型,雪花模型,星座模型 三种模型的区别: 星型模型:围绕着一个事实表,维度只有一层 雪花模型:围绕着一个事实表,维度有多层,雪花模型比较...

  • hive函数汇总

    日期函数: to_date() 从一个字符串中抽取日期的部分;to_date(‘2019-03-09 wedede’); year(),month(),day(),hour...

  • 120
    hive详解

    hive简要机制 hive 利用HDFS存储,利用MR查询,执行程序运行在yarn上,是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL...