1. Flink运行框架 1.1 运行组件: 作业管理器(JobManager):请求slot 资源管理器(ResourceManager):管理slot 任务管理器(Tas...
![240](https://upload.jianshu.io/users/upload_avatars/26520714/989b07e7-dbf1-41cf-82ba-4939536e4df4.jpeg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP属地:广东
1. Flink运行框架 1.1 运行组件: 作业管理器(JobManager):请求slot 资源管理器(ResourceManager):管理slot 任务管理器(Tas...
1. BDP平台建议设置 并行度 Parallelism在分布式的运行环境中,每个 opetator(例如 source、map 等 operator)都会切分成多个 sub...
1. Hive基本概念 数据仓库工具,底层存储为HDFS,类SQL的查询,转化为mapreduce。执行程序运行在Yarn上 2. hive 内部表和外部表的区别? Hive...
1. kafka概况 消息队列的好处:解耦,可恢复性,缓冲,峰值处理能力,异步通讯 概念:Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)...
1.Kafka 中的 ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么? ISR: 和 leader 保持同步的 fol...
1.基础知识 clickhouse的特点: DBMS 的功能:使用SQL 列式存储: 在列的统计计算上有优势,便于压缩,节省磁盘空间 高吞吐写入能力:顺序写,充分利用了磁盘的...
sql执行顺序 (1)from (3) join (2) on (4) where (5)group by(开始使用select中的别名,后面的语句中都可以使用) (6) a...
1.小表大表join(MapJOIN):使用map join 让小的维度表先进内存,在map端完成join set hive.auto.convert.join = true...