1、数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。 输出系统:报表系统、用户画像系统、推荐...
IP属地:海南
1、数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。 输出系统:报表系统、用户画像系统、推荐...
每天集群运行多少指标? 每天跑100多个指标,有活动时跑200个左右。 任务挂了怎么办? 1)运行成功或者失败都会发邮件、发钉钉、集成自动打电话(项目中遇到的问题) 2)最主...
Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用...
1、什么是Hive,为什么要用Hive,你是如何理解Hive? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能...
1、常用命令 ls、get、create、delete 2、选举机制 半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。 1)服务器1启...
一、基础摸底 1、你们Kafka集群的硬盘一共多大?有多少台机器?日志保存多久?用什么监控的? 这里考察应试者对kafka实际生产部署的能力,也是为了验证能力的真实程度,如果...
1、你是怎么理解Spark,它的特点是什么? Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 它内部的组成模块,...
1、什么是Hadoop? Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容:Hdfs,MapReduc...