c40e5895f3b8 - 简书

发简信

6
关注
1
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：安徽

c40e5895f3b8

Kafka+Spark Streaming如何保证exactly once语义
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中（没错，Kafka本质上是流处理系统，不是单纯的“消息队列”），存在三种消息传递语义（...

LittleMagic
6755 6 27
c40e5895f3b8

阿里面试，为什么Kafka不支持读写分离
还在加班，收到一个小伙伴的吐槽：狼哥，阿里的面试太变态了，我只是在工作中用过kafka，然后简历上提了下，就被抓着一个劲的问，一些基础的问题，我还可以勉强答出来，但是问到“为...

美团Java
5575 5 39

c40e5895f3b8

Kafka史上最详细原理总结上
Kafka史上最详细原理总结分为上下两部分，承上启下 Kafka史上最详细原理总结上 Kafka史上最详细原理总结下 Kafka Kafka是最初由Linkedin公司开发，...

小波同学
237619 6 219
c40e5895f3b8

Hadoop/Spark大数据面试总结
1. 简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的...

什锦甜
3438 3 42
c40e5895f3b8

OpenResty不完全指南
OpenResty 简介 OpenResty® 是一个基于 Nginx 与 Lua 的高性能 Web 平台。我们知道开发 Nginx 的模块需要用 C ，同时还要熟悉它的源码...

猴子精h
2795 0 5
c40e5895f3b8

python利用进程池pool添加多进程
当需要创建的子进程数量不多时，可以直接利用multiprocessing中的Process动态成生多个进程，但如果是上百甚至上千个目标，手动的去创建进程的工作量巨大，此时就可...

Oo晨晨oO
2970 1 5
c40e5895f3b8

初入Python 进程池的坑 module' object has no attribute
错误：学习python多线程的使用，发现上面的实例总是在运行的抛错：multiprocessing error, 'module' object has no attrib...

默然戚戚
4341 0 1 1

c40e5895f3b8

Python Mysql 事务处理
执行事务事务机制可以确保数据一致性。事务应该具有4个属性：原子性、一致性、隔离性、持久性。这四个属性通常称为ACID特性。原子性（atomicity）。一个事务是一个不...

cyroom
3200 0 1
c40e5895f3b8

在python中使用反射（reflection）
反射在编程语言中变广泛的应用，java和php都提供专门的类库，对反射有很好的支持，而python，仿佛天生就支持了反射。反射是在只知道类名或者函数名的情况下调用其对应的函...

EdisonDong
6762 0 1
c40e5895f3b8

快速掌握阿里云 E-MapReduce
阿里云 Elastic MapReduce（E-MapReduce）是一种大数据处理的系统解决方案。构建于阿里云云服务器 ECS 上，基于开源的 Apache Hadoop...

xmvip01
290 0 1
c40e5895f3b8

Hive之COUNT DISTINCT优化
COUNT(DISTINCT xxx) 在hive中很容易造成数据倾斜。针对这一情况，网上已有很多优化方法，这里不再赘述。但有时，“数据倾斜”又几乎是必然的。我们来举个例子...

DataValley
5827 0 6
c40e5895f3b8

总结：Hive，Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hi...

mrlevo520
29002 6 61

c40e5895f3b8

8. Hive基础
1. Hive基本介绍和基础： Facebook公司最早完成并开源了hive框架，可以将sql语句直接翻译成MapReduce程序。Hive是基于Hadoop的一个数据仓库工...

奉先
3343 0 43
c40e5895f3b8

Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见Hadoop简单实现全排序现在学了hive，写sql大家都很熟悉，如果一个o...

辉格食品
15637 1 4
c40e5895f3b8

Hive ETL性能优化
一、目标用更少的资源、更短的时间，完成任务计算。二、方法论收集数据：explain查看执行计划定位瓶颈：1）查看执行日志，定位哪个Stage（Job）时间长2）查看J...

西二旗老司机
4361 0 8

暂无个人介绍