马上码 - 简书

发简信

12
关注
3
粉丝
18
文章
12836

字数
16

收获喜欢
1

总资产

IP属地：山东

马上码

7.连接查询
/*含义：又称多表查询，当查询的字段来自于多个表时，就会用到连接查询笛卡尔乘积现象：表1 有m行，表2有n行，结果=m*n行发生原因：没有有效的连接条件如何避免：添加有效的...

2806 0 0
马上码

6.分组查询
/*语法：select 查询列表from 表【where 筛选条件】group by 分组的字段【order by 排序的字段】; 特点：1、和分组函数一同查询的字段必须是g...

2828 0 0

马上码

5.分组函数
/*功能：用作统计使用，又称为聚合函数或统计函数或组函数分类：sum 求和、avg 平均值、max 最大值、min 最小值、count 计算个数特点：1、sum、avg一...

2649 0 0
马上码

4.常见函数
/*概念：类似于java的方法，将一组逻辑语句封装在方法体中，对外暴露方法名好处：1、隐藏了实现细节 2、提高代码的重用性调用：select 函数名(实参列表) 【from...

1508 0 0
马上码

3.排序查询 order by
/*语法：select 查询列表from 表名【where 筛选条件】order by 排序的字段或表达式;特点：1、asc代表的是升序，可以省略desc代表的是降序2、o...

2629 0 0
马上码

2.条件查询
/*语法：分类：一、按条件表达式筛选简单条件运算符：> < = != <> >= <=二、按逻辑表达式筛选逻辑运算符：作用：用于连接条件表达式&& || !and or n...

1387 0 0
马上码

1.基础查询
/*语法：select 查询列表 from 表名; 类似于：System.out.println(打印东西); 特点： 1、查询列表可以是：表中的字段、常量值、表达式、函数2...

1252 0 0

马上码

阿里云技术
写了 0 字，被 62470 人关注，获得了 5627 个喜欢

阿里云官网（<a href="https://links.jianshu.com/go?to=https%3A%2F%2Fwww.aliyun.com%2F" target="_blank">https://www.aliyun.com/</a>），每日分享最新产品技术内容、官网活动资讯！
马上码

hive笔记（三）
hive交互命令： “-e”不进入hive的交互窗口执行sql语句hive -e "select id from default.student;" “-f”执行脚本中sql...

3680 0 1
马上码

hive学习笔记（二）
hive基本操作进入hive的两种方式：1. 命令行输入：hive 即可thrit做的连接（Thrift是一种接口描述语言和二进制通讯协议，它被用来定义和创建跨语言的服务。...

1522 0 1
马上码

hive学习笔记
一、什么是hive Hive是由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表并提供类...

2990 0 4
马上码

(九)SPARK性能优化----优化数据结构
Java中，有三种类型比较耗费内存：对象，每个Java对象都有一个对象头、引用等额外的信息，因此比较占用内存空间。字符串，每个字符串内部都有一个字符串数组以及长度等额外信...

832 0 0

马上码

(八)SPARK性能优化----使用Kryo优化序列化性能
在SPARK中，主要有三个地方涉及到了序列化：在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输（见“原则七：广播大变量”中的讲解）。将自定义的类型作为RDD的...

2607 0 0
马上码

(七)SPARK性能优化----广播大变量
有时在开发过程中，会遇到需要在算子函数中使用外部变量的场景（尤其是大变量，比如100M以上的大集合），那么此时就应该使用Spark的广播（Broadcast）功能来提升性能。...

3196 0 0
马上码

(五)SPARK优化----使用map-side预聚合的shuffle操作
如果因为业务需要，一定要使用shuffle操作，无法使用map类的算子来替代，那么尽量使用map-side预聚合的算子。所谓的map-side预聚合，说的是每个节点本地对相...

2854 0 0
马上码

(四)SPARK性能优化----避免使用shuffle类算子
如果有可能的话，要尽量少使用shuffle类算子。因为Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，简单来说就是将分布在集群中多个节点...

5203 0 0
马上码

518fd8031e83
写了 0 字，被 1 人关注，获得了 0 个喜欢

马上码

SPARK性能优化----对多次使用的RDD进行持久化
概述当你在Spark代码中多次对一个RDD做了算子操作后，恭喜，你已经实现Spark作业第一步的优化了，也就是尽可能复用RDD。此时就该在这个基础之上，进行第二步优化了，也...

3369 0 3
马上码

SPARK性能优化----尽可能复用同一个RDD
概述除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能的复用一个RDD。比如说，有一个RDD的数据格式是key-value...

4026 0 3

暂无个人介绍