240 发简信
IP属地:加州
  • Create EMR

    ?xml version="1.0" encoding="UTF-8"?project_name=$1uuid=cat /proc/sys/ke...

  • emr

    create emr cluster_id_json=`aws emr create-cluster \ --region cn-northwe...

  • Resize,w 360,h 240
    spark yarn-cluster 和 yarn client

    ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。...

  • Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解

    输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根据具体数据格式对...

  • RDD

    rdd:resiliient distributed datasets 弹性分布式数据集,不可变的、分区的 resiliient :顾名思义弹性...

  • spark内存资源管理机制

    spark storage和shuffle的动态资源分配 Spark1.6之前:(直接修改参数值就可以) data需要资源 : spark.st...