hive数据库是hdfs上的文件夹,表也是文件夹,表里的数据是文件hive建表create table t_student(id string,name string,age...

hive数据库是hdfs上的文件夹,表也是文件夹,表里的数据是文件hive建表create table t_student(id string,name string,age...
下载镜像 可以在黑果小兵平台,远景论坛等平台了解黑苹果相关。首先下载macOS镜像和相关黑苹果镜像制作,百度链接地址如下链接:https://pan.baidu.com/s/...
Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量...
系统架构图 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、M...
Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据...
1. 避免重复创建RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作...
背景 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变...
spark中基本概念 Application:表示你的应用程序 Driver:表示main()函数,创建SparkContext。由SparkContext负责与Cluste...
什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可...
vim /etc/sudoers 添加sudo权限 adduser 添加用户passwd 修改密码 sudo vim /etc/sysconfig/network 修改名...
主分支 : master分支 : v1.0 1.创建分支 : git branch v1.02.切换分支 : git checkout v1.0(注意切换不成功执行: git...
1.准备应用https://share.weiyun.com/5beYAw4密码:nFO82.将下载的zip解压,在浏览器中找到更多工具,扩展程序
idea 需要: 双击一路next 选择安装路径 只选-64,然后next 安装完成,选项不点对勾然后点finish 将jar复制到安装目录bin下面 打开这俩文件在这里插入...
1.安装前准备 4.网卡安装4.1配置第一块网卡(eth0) ``2.修改网络映射(每台虚拟机都要配置)vi /etc/hosts cat /etc/profile >> ~...
process内使用KeyedProcessFunctionliststate可以设置检查点当程序在某时刻停止再启动会继续(记录偏移量)
连接kafka获取数据 MySQLsource HBaseSink
apply中的WindowFunction使用方法
读文本 读数组
1. Time 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一...