USTC_IT - 简书

发简信

USTC_IT

0
关注
0
粉丝
17
文章
12117

字数
1

收获喜欢
0

总资产

IP属地：四川

USTC_IT

正则表达式
常见正则表达式 hive 关键字REGEXP https://blog.csdn.net/knqiufan/article/details/80010287 判断日期格式是否...

1521 0 0
USTC_IT

WordCount
sparkCore：算子实现： SparkSql 实现： java 实现：MapReduce mapper reduce driver

1612 0 0

USTC_IT

hadoop之Sqoop
Sqoop原理：将导入导数命令翻译成MR程序来实现，翻译出的MR主要是针对InputFormat和OutputFormat进行定制的； sqoop的作用：利用Mapred...

2695 0 0
USTC_IT

hadoop之Yarn
资源调度器：（面试重点）主要有三种：FIFO，capacityScheduler Fair Scheduler FIFO（先进先出调度器）：按照到达的时间排序，先到先服务...

1742 0 0
USTC_IT

计算机网络
OSI七层模型：物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 TCP/IP四层模型：网络接口层、网络层、传输层、应用层物理层：为上层协议提供了一个传输数据...

1618 0 0
USTC_IT

数据库相关
事务ACID：原子性：要求操作要么全部执行，要么全部不执行一致性：事务提交前后只存在两个状态，提交前的状态和提交后的状态，不会有中间状态隔离性：事务可以并发执行，但是他...

1040 0 0
USTC_IT

hadoop之Hbase
Hbase特点：海量存储：适合PB级别的海量数据，，hbase有良好的扩展性列式存储：根据列族来存储数据的极易扩展：高并发：稀疏存储：数据为空的情况下不占用存储空间 Hba...

3437 0 0

USTC_IT

hadoop之MapReduce
MR核心编程思想： MR一般需要分成两个阶段，Map和reduce，map阶段，map task完全并行运行，互不干扰，reduce阶段，reduce task 完全不互相干...

1456 0 0
USTC_IT

hadoop之HDFS
HDFS基础：分布式文件系统，适合一次写入，多次读出的场景，适合用来做数据分析 HDFS的组成架构： Namenode:是master，存储元数据信息，配置副本策略，处理客...

669 0 0
USTC_IT

SQL特别函数解释
SQL的执行顺序 count（）： group by (): 【拓展】如果分析多个维度的分组结果时，两种方案：（1）多个group by 的结果用union all 合并...

955 0 0
USTC_IT

hadoop 概述
Hadoop是什么：是Apache开发的分布式系统基础架构，主要解决海量数据的存储和海量数据的分析计算问题，hadoop通常是指更广泛的概念，hadoop生态圈。 Hado...

2224 0 0
USTC_IT

Elasticsearch7.2安装
安装Elasticsearch、elasticsearch-head 安装包：安装elasticsearch：解压elasticsearch；首先安装jdk jdk...

1319 0 0

USTC_IT

shell 基本语法
转载 https://www.jianshu.com/p/d0b061ecf855

818 0 0
USTC_IT

数据仓库之表的分类
数仓表的分类：实体表：指的是一个现实存在的业务对象，比如商品，商家，用户。维度表：指的是对应一些业务状态，编号的解释表，也称为码表。比如，地区表，订单状态。事务性事...

4839 0 0
USTC_IT

数据仓库之维度建模
维度建模种类主要三种模型：星型模型，雪花模型，星座模型三种模型的区别：星型模型：围绕着一个事实表，维度只有一层雪花模型：围绕着一个事实表，维度有多层，雪花模型比较...

1716 0 1
USTC_IT

hive函数汇总
日期函数： to_date() 从一个字符串中抽取日期的部分；to_date(‘2019-03-09 wedede’); year(),month()，day()，hour...

3717 0 0
USTC_IT

hive详解
hive简要机制 hive 利用HDFS存储，利用MR查询，执行程序运行在yarn上，是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL...

3671 0 0

USTC_IT

暂无个人介绍