240 发简信
IP属地:重庆
  • Resize,w 360,h 240
    Spark SQL

    简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQ...

  • Resize,w 360,h 240
    spark-Core

    RDD解决的问题:1.中间结果保存在内存中,并且重用2.提供了通用的抽象的分布式的数据模型3.提供了多种数据操作模式(支持函数式编程):如map...

  • Resize,w 360,h 240
    Spark_简单介绍

    介绍:Spark是用于大规模数据处理的统一分析引擎 spark的引入:虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是...

  • Hive的基本的概述即使用参考

    1.Hive的概述 √ 意义:在于大幅度降低工程师学习MapReduce的学习成本,让好用(计算速度快)的MapReduce更方便的使用(使用简...

  • SparkStreaming接收Kafka中数据的两种方式

    kafka版本说明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiv...

  • YARN的运行流程简要步骤

    1.client 向 ResourceManager提交应用程序,其中包括启动该应用的 ApplicationMaster 的必须信息,例如 A...

  • MapReduce的shuffle阶段

    map端的shuffle: 每个maptask的数据会进入环形缓冲区中,(默认100M,溢出比是80%),数据在写入时,会进行分区,往数据中添加...

  • 初识MapReduce的八个步骤

    Map阶段2个步骤 第一步:设置inputFormat类,将我们的数据切分成key,value对,输入到第二步 第二步:自定义map逻辑,处理我...

  • HDFS文件写入的简要步骤

    1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传...