白哥 - 简书

发简信

白哥

0
关注
1
粉丝
8
文章
19274

字数
10

收获喜欢
2

总资产

IP属地：吉林

白哥

数仓高频面试题
1、数据仓库的输入数据源和输出系统分别是什么？输入系统：埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。输出系统：报表系统、用户画像系统、推荐...

1596 0 0
白哥

Azkaban
每天集群运行多少指标? 每天跑100多个指标，有活动时跑200个左右。任务挂了怎么办？ 1）运行成功或者失败都会发邮件、发钉钉、集成自动打电话（项目中遇到的问题） 2）最主...

170 0 0

白哥

Sqoop
Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“\N”来存储，而MySQL中的Null在底层就是Null，为了保证数据两端的一致性。在导出数据时采用...

297 0 0
白哥

大数据面试杀招——Hive高频考点
1、什么是Hive，为什么要用Hive，你是如何理解Hive? Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能...

290 0 0
白哥

Zookeeper
1、常用命令 ls、get、create、delete 2、选举机制半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。 1）服务器1启...

101 0 0
白哥

大数据面试杀招——Kafka高频考点
一、基础摸底 1、你们Kafka集群的硬盘一共多大？有多少台机器？日志保存多久？用什么监控的？这里考察应试者对kafka实际生产部署的能力，也是为了验证能力的真实程度，如果...

373 0 0
白哥

大数据面试杀招——Spark高频考点
1、你是怎么理解Spark，它的特点是什么？ Spark是一个基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎。它内部的组成模块，...

341 0 1

白哥

大数据面试杀招——Hadoop高频考点
1、什么是Hadoop？ Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容：Hdfs，MapReduc...

264 0 1
白哥

个人介绍

接受平庸的自己，与自己和解。