大数据 - 文集

大数据

13篇文章 · 48012字 · 3人关注

Flink状态存储
Flink提供了不同的状态存储方式，并说明了状态如何存和存储在哪里。状态可以被存储在Jvm的堆和堆外。根据状态存储方式的不同，Flink也能代替...

0.5 12732 0 4
Flink状态
key状态和算子状态 key状态 key状态总是与key有关，只能被用于keyedStream类型的函数与算子。你可以认为key状态是一种被分区...

0.1 4697 0 1

MongoDB3.6之Replica Set初步体验
Replica Set在国内叫做副本集，简单来说就是一份数据在多个地方存储。 1.为什么要用副本集，什么时候使用副本集？有人说一份数据在多个地...

2271 0 1
Spark方法aggregate讲解
大致的意思是aggregate接收两个函数，和一个初始化值。seqOp函数用于聚集每一个分区，combOp用于聚集所有分区聚集后的结果。每一个分...

0.1 12801 2 1
Spark Streaming WordCount
在spark官网讲解spark streaming的时候，举了一个word count的例子,通过监听一个端口的TCP连接，统计单词的个数。程序...

3258 0 0
Hive中自定义Map/Reduce示例 In Python
Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。使用Python开发(如果使用Java...

4411 0 0
Hive中自定义Map/Reduce示例 In Java
Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。如果自己使用Java开发，需要处理Sy...

4733 0 0

FileSystem关键几个方法的时序图
Hadoop将底层文件系统抽象成FileSystem类，上层用户可以通过相同方法操作底层不同的文件系统。常用的方法有get一个FileSyste...

0.1 5563 1 1
第5章:Hadoop I/O
Hadoop有一些数据I/O方面操作的工具，其中一些比Hadoop使用的都更普遍。例如数据完整性和压缩。但是当使用这些工具处理多达几TB数据的时...

3816 0 2