240 发简信
IP属地:甘肃
  • Resize,w 360,h 240
    Spark 原理篇:存储系统

    Spark 存储系统服务对象 RDD 缓存好处1.通过截断 DAG,可以降低失败重试的计算开销2.通过对缓存内容的访问,可以有效减少从头计算的次...

  • Resize,w 360,h 240
    Spark 原理篇:内存管理基础

    内存的管理模式堆内内存申请与释放统一由 JVM 代劳在这样的管理模式下,Spark 对内存的释放是有延迟的,因此,当 Spark 尝试估算当前可...

  • Resize,w 360,h 240
    Spark 原理篇:调度系统

    Spark 调度系统的工作流程包含如下 5 个步骤:将 DAG 拆分为不同的运行阶段 Stages;创建分布式任务 Tasks 和任务组 Tas...

  • Resize,w 360,h 240
    Spark 原理篇:DAG与流水线:到底啥叫“内存计算”?

    第一层含义:分布式数据缓存 RDD cache 作用:可以将中间RDD缓存在内存,提升再次访问该RDD速度适用场景:需要频繁访问的数据集才有必要...

  • Resize,w 360,h 240
    Spark 原理篇:深入理解 RDD

    RDD 的核心特征和属性 横向属性:刻画的是 RDD 在跨节点方向上的横向扩展1.partitions:对应着 RDD 分布式数据实体中所有的数...

  • CDH6.3.2下Idea远程Spark on yarn-client with hive提交任务

    环境:CDH6.3.2,Spark-version:2.4.0+cdh6.3.2 配置文件:spark on yarn /etc/spark/c...