240 发简信
IP属地:甘肃
  • 7.连接查询

    /*含义:又称多表查询,当查询的字段来自于多个表时,就会用到连接查询 笛卡尔乘积现象:表1 有m行,表2有n行,结果=m*n行发生原因:没有有效的连接条件如何避免:添加有效的...

  • 6.分组查询

    /*语法:select 查询列表from 表【where 筛选条件】group by 分组的字段【order by 排序的字段】; 特点:1、和分组函数一同查询的字段必须是g...

  • 5.分组函数

    /*功能:用作统计使用,又称为聚合函数或统计函数或组函数分类:sum 求和、avg 平均值、max 最大值 、min 最小值 、count 计算个数特点:1、sum、avg一...

  • 4.常见函数

    /*概念:类似于java的方法,将一组逻辑语句封装在方法体中,对外暴露方法名好处:1、隐藏了实现细节 2、提高代码的重用性调用:select 函数名(实参列表) 【from...

  • 3.排序查询 order by

    /*语法:select 查询列表from 表名【where 筛选条件】order by 排序的字段或表达式;特点:1、asc代表的是升序,可以省略desc代表的是降序2、o...

  • 2.条件查询

    /*语法: 分类:一、按条件表达式筛选简单条件运算符:> < = != <> >= <=二、按逻辑表达式筛选逻辑运算符:作用:用于连接条件表达式&& || !and or n...

  • 1.基础查询

    /*语法:select 查询列表 from 表名; 类似于:System.out.println(打印东西); 特点: 1、查询列表可以是:表中的字段、常量值、表达式、函数2...

  • hive笔记(三)

    hive交互命令: “-e”不进入hive的交互窗口执行sql语句hive -e "select id from default.student;" “-f”执行脚本中sql...

  • hive学习笔记(二)

    hive基本操作 进入hive的两种方式:1. 命令行输入:hive 即可thrit做的连接(Thrift是一种接口描述语言和二进制通讯协议,它被用来定义和创建跨语言的服务。...

  • hive学习笔记

    一、什么是hive Hive是由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表并提供类...

  • (九)SPARK性能优化----优化数据结构

    Java中,有三种类型比较耗费内存: 对象,每个Java对象都有一个对象头、引用等额外的信息,因此比较占用内存空间。 字符串,每个字符串内部都有一个字符串数组以及长度等额外信...

  • (八)SPARK性能优化----使用Kryo优化序列化性能

    在SPARK中,主要有三个地方涉及到了序列化: 在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输(见“原则七:广播大变量”中的讲解)。 将自定义的类型作为RDD的...

  • (七)SPARK性能优化----广播大变量

    有时在开发过程中,会遇到需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时就应该使用Spark的广播(Broadcast)功能来提升性能。...

  • 120
    (五)SPARK优化----使用map-side预聚合的shuffle操作

    如果因为业务需要,一定要使用shuffle操作,无法使用map类的算子来替代,那么尽量使用map-side预聚合的算子。 所谓的map-side预聚合,说的是每个节点本地对相...

  • (四)SPARK性能优化----避免使用shuffle类算子

    如果有可能的话,要尽量少使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,简单来说就是将分布在集群中多个节点...

  • SPARK性能优化----对多次使用的RDD进行持久化

    概述 当你在Spark代码中多次对一个RDD做了算子操作后,恭喜,你已经实现Spark作业第一步的优化了,也就是尽可能复用RDD。此时就该在这个基础之上,进行第二步优化了,也...

  • SPARK性能优化----尽可能复用同一个RDD

    概述 除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外,在对不同的数据执行算子操作时还要尽可能的复用一个RDD。比如说,有一个RDD的数据格式是key-value...