Avatar notebook default
14篇文章 · 12304字 · 6人关注
  • Resize,w 360,h 240
    Spark面试知识点

    一.Spark架构 1.Spark架构中的组件 2.spark架构揭示了spark的具体流程如下: 二.RDD 1.Spark弹性数据集RDD有...

  • Hadoop面试知识点

    一.Hadoop 1.Hadoop 主要有以下几个优点 二.HDFS 1.HDFS架构 2.Block 3.HDFS的特点 (1)优点 (2)劣...

  • (转)十道海量数据处理面试题

    原博客地址 一.十道海量数据处理面试题: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 算法思想:分而治之+Hash 2.假设目前有...

    0.1 72 0 1
  • (转)处理海量数据问题的六种思路(23456):双层桶划分

    原博客地址 目录一.双层桶划分二.Bloom Filter/Bitmap三Trie树/数据库/倒排索引四.外排序五.分布式处理之MapReduc...

  • (转)处理海量数据问题的六种思路(1):分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序

    原博客地址 一.分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序 0.针对海量数据处理如何着手 分而治之/hash映射 + ha...

  • 大数据面试-算法编程

    简述 hadoop 怎么样实现二级排序? 在Reduce阶段,先对Key排序,再对Value排序最常用的方法是将Value放到Key中,实现一个...

  • 大数据面试-hadoop(2)

    jps命令的用处? 这个命令可以检查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作 请列出你...

  • 大数据面试-flume

    目录1.flume 不采集 Nginx 日志,通过 Logger4j 采集日志,优缺点是什么?2.flume 和 kafka 采集日志区别,采集...

  • 大数据面试-Zookeeper

    目录1.写出你对zookeeper的理解 1.写出你对zookeeper的理解 随着大数据的快速发展,多机器的协调工作,避免主要机器单点故障的问...

文集作者