数据漂移的处理 通常我们把从源系统同步进人数据仓库的第一层数据称为 ODS stag ing 层数据,阿里巴巴统称为 ODS 。数据漂移是 ODS 数据的一个 顽疾,通常是...

数据漂移的处理 通常我们把从源系统同步进人数据仓库的第一层数据称为 ODS stag ing 层数据,阿里巴巴统称为 ODS 。数据漂移是 ODS 数据的一个 顽疾,通常是...
今天给大家分享一个主题:Storage Format, 也就是存储格式 我们先在 hive 里建张表,打开 hive 的控制台,创建一个表create table t(id ...
hive调优 一、fetch策略 hive.fetch.task.conversion现在版本默认值是morenone:表示禁用,任何查询都会走mr(count好像不走)mi...
Hive元数据是什么? 元数据,即解释数据的数据。在Hive架构中,数据库/表内实际数据存放在HDFS之类的分布式存储系统中,但这些数据并不带有数据库/表/字段之类的描述信息...
Hive如何处理大量小文件 小文件是如何产生的 1.动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增2.数据源本身就包含有大量的小文件3.reduce个数...
常见sql种 lateral view用法: 1.question_option_id是数组存储格式是字符串类型 2.question_option_id是数组,存储格式是数...
spark常见错误:一:·21/07/22 18:34:48 ERROR MetricsSystem: Sink class org.apache.spark.metrics...
阿里云常见错误: 2021-07-19 20:21:27 INFO Current task status:RUNNING 2021-07-19 20:21:27 INFO ...
Kafka官网 kafka.apache.org 1.官网的介绍 消息中间件 承上启下 缓冲 稳稳的消费flume-->kafka-->ss/flink distribu...
Spark初识 spark几种模式 local 下载下来后,不做什么配置 StandLone 了解即可·····Spark集群: 1个节点 N个节点 VS Had...
HDFS常用API 在前面获取文件系统的客户端对象(里面都是配置文件) 在后面关闭流 将hdfs文件下载到本地 用流来实现 //将hdfs文件下载到本地 删除文件 读取文件...
spark初识 1.MapReduce map + reduce 开发easy?一般情况下:map ==》(写入) 磁盘 reduce ==>(写入) hdfs特殊;...
spark Github: https://github.com/apache/spark/[https://github.com/apache/spark/]RDD: 让开...
可以参考视频链接: 视频链接[https://www.bilibili.com/video/BV12b411N7Lv]视频链接[https://www.bilibili.co...
1. SNN****(****secondNamenode****) 1.1****secondNamenode****工作机制 1.secondNamenode执行chec...
LInux笔记 1. 磁盘 1.1****df -h 它报告文件系统磁盘空间的使用情况。 真实的数据盘 2. 内存 free -m:查看内存使用情况 5058/7823 =6...