240 发简信
IP属地:加州
  • Create EMR

    ?xml version="1.0" encoding="UTF-8"?project_name=$1uuid=cat /proc/sys/kernel/random/uui...

  • emr

    create emr cluster_id_json=`aws emr create-cluster \ --region cn-northwest-1 \ --name m...

  • 120
    spark yarn-cluster 和 yarn client

    ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每...

  • Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解

    输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行...

  • RDD

    rdd:resiliient distributed datasets 弹性分布式数据集,不可变的、分区的 resiliient :顾名思义弹性,可以存在给定不用数目的分区、...

  • spark内存资源管理机制

    spark storage和shuffle的动态资源分配 Spark1.6之前:(直接修改参数值就可以) data需要资源 : spark.storage.memoryFra...