一.Spark架构 1.Spark架构中的组件 2.spark架构揭示了spark的具体流程如下: 二.RDD 1.Spark弹性数据集RDD有...
一.Hadoop 1.Hadoop 主要有以下几个优点 二.HDFS 1.HDFS架构 2.Block 3.HDFS的特点 (1)优点 (2)劣...
原博客地址 一.十道海量数据处理面试题: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 算法思想:分而治之+Hash 2.假设目前有...
原博客地址 目录一.双层桶划分二.Bloom Filter/Bitmap三Trie树/数据库/倒排索引四.外排序五.分布式处理之MapReduc...
原博客地址 一.分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序 0.针对海量数据处理如何着手 分而治之/hash映射 + ha...
简述 hadoop 怎么样实现二级排序? 在Reduce阶段,先对Key排序,再对Value排序最常用的方法是将Value放到Key中,实现一个...
jps命令的用处? 这个命令可以检查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作 请列出你...
目录1.flume 不采集 Nginx 日志,通过 Logger4j 采集日志,优缺点是什么?2.flume 和 kafka 采集日志区别,采集...
目录1.写出你对zookeeper的理解 1.写出你对zookeeper的理解 随着大数据的快速发展,多机器的协调工作,避免主要机器单点故障的问...
文集作者