小李_同学 - 简书

发简信

小李_同学

1
关注
0
粉丝
16
文章
17724

字数
5

收获喜欢

IP属地：浙江

小李_同学

数据漂移的处理
数据漂移的处理通常我们把从源系统同步进人数据仓库的第一层数据称为 ODS stag ing 层数据，阿里巴巴统称为 ODS 。数据漂移是 ODS 数据的一个顽疾，通常是...

1049 0 5
小李_同学

hive之存储格式
今天给大家分享一个主题：Storage Format, 也就是存储格式我们先在 hive 里建张表，打开 hive 的控制台，创建一个表create table t(id ...

1040 0 0

小李_同学

hive调优
hive调优一、fetch策略 hive.fetch.task.conversion现在版本默认值是morenone：表示禁用，任何查询都会走mr（count好像不走）mi...

474 0 0
小李_同学

hive元数据
Hive元数据是什么？元数据，即解释数据的数据。在Hive架构中，数据库/表内实际数据存放在HDFS之类的分布式存储系统中，但这些数据并不带有数据库/表/字段之类的描述信息...

5061 0 0
小李_同学

Hive如何处理大量小文件
Hive如何处理大量小文件小文件是如何产生的 1.动态分区插入数据的时候，会产生大量的小文件，从而导致map数量的暴增2.数据源本身就包含有大量的小文件3.reduce个数...

992 0 0
小李_同学

liuzx32
写了 319758 字，被 156 人关注，获得了 283 个喜欢
小李_同学

常见sql种 lateral view用法：
常见sql种 lateral view用法： 1.question_option_id是数组存储格式是字符串类型 2.question_option_id是数组，存储格式是数...

3324 0 0

小李_同学

spark常见错误：
spark常见错误：一：·21/07/22 18:34:48 ERROR MetricsSystem: Sink class org.apache.spark.metrics...

1282 0 0
小李_同学

阿里云常见错误：
阿里云常见错误： 2021-07-19 20:21:27 INFO Current task status:RUNNING 2021-07-19 20:21:27 INFO ...

2968 0 0
小李_同学

kafka
Kafka官网 kafka.apache.org 1.官网的介绍消息中间件承上启下缓冲稳稳的消费flume-->kafka-->ss/flink distribu...

818 0 0
小李_同学

2021-03-11
Spark初识 spark几种模式 local 下载下来后，不做什么配置 StandLone 了解即可·····Spark集群： 1个节点 N个节点 VS Had...

273 0 0
小李_同学

2021-03-10
HDFS常用API 在前面获取文件系统的客户端对象（里面都是配置文件）在后面关闭流将hdfs文件下载到本地用流来实现 //将hdfs文件下载到本地删除文件读取文件...

268 0 0

小李_同学

2021-03-07
spark初识 1.MapReduce map + reduce 开发easy?一般情况下：map ==》（写入）磁盘 reduce ==>（写入） hdfs特殊;...

268 0 0
小李_同学

spark之RDD详解----五大特性
spark Github: https://github.com/apache/spark/[https://github.com/apache/spark/]RDD：让开...

3189 0 0
小李_同学

安装mysql5.7
可以参考视频链接：视频链接[https://www.bilibili.com/video/BV12b411N7Lv]视频链接[https://www.bilibili.co...

326 0 0
小李_同学

Hadoop SecondNameNode工作机制、常用命令与常用设置
1. SNN****（****secondNamenode****） 1.1****secondNamenode****工作机制 1.secondNamenode执行chec...

1227 0 0
小李_同学

linux生产常用笔记（二）
LInux笔记 1. 磁盘 1.1****df -h 它报告文件系统磁盘空间的使用情况。真实的数据盘 2. 内存 free -m：查看内存使用情况 5058/7823 =6...

318 0 0

小李_同学

个人介绍

学习IT,大家一起努力，一起学习