240 发简信
IP属地:北京
  • hive语句大全

    hive数据库是hdfs上的文件夹,表也是文件夹,表里的数据是文件hive建表create table t_student(id string,...

  • spark参数

    Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服...

  • Resize,w 360,h 240
    Hbase原理

    系统架构图 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、...

  • hive数据倾斜原因解决方法

    Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种...

  • Resize,w 360,h 240
    spark开发调优

    1. 避免重复创建RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接...

  • Resize,w 360,h 240
    spark广播变量累加器

    背景 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数...

  • Resize,w 360,h 240
    spark运行流程

    spark中基本概念 Application:表示你的应用程序 Driver:表示main()函数,创建SparkContext。由SparkC...

  • Resize,w 360,h 240
    RDD与算子

    什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一...

  • VMware安装

    vim /etc/sudoers 添加sudo权限 adduser 添加用户passwd 修改密码 sudo vim /etc/syscon...