hiveContextNote

hive是数据仓库 存储格式是文本 不支持行级别的更新删除和插入 所以在hive中只有drop table 没有delete table

所以 Df.write().mode(SaveMode.Append).saveAsTable("tableName") 插入都是以DataFrame级别进行的

val lastMaXIDDF:DataFrame = hiveContext.read().table(readTable).filter(conditions).agg(Map("recoid"->"max")).toDF("lastMaxId") “recoid”是readTable的某一列,求其最大值,生成的DataFrame只有唯一一列 对应列名为lastMaxId

以追加形式写入数据库的某一张表,若无此表 则创建此表 默认将字段全部小写, Overwirite 也可以创建不存在的表

hive创建表:只创建表的结构 create table name1 like existingTableName

创建表复制结构 以及数据:create table name2 as select * from existingTableName(启动Spark Job) 

直接表结构:create table if not exists tableName(ip string,time string) row format delimited fields terminated by '\t'

"overwrite" drop the table first and create a table

"append" just like the insert

$等关键词符号 需要加入 import hiveContext.implicits._

使用udf函数 需要导入 import org.apache.spark.sql.functions._


插入hive分区表 需指定:

hiveContext.setConf("hive.exec.dynamic.partition","true")

hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")

DataFrame.write().mode(SaveMode.Append).partitionBy("year","month","day").saveAsTable("tableName")

insert into table tableName partitionBy(year,month,day) select * ,year(createtime),month(createtime),dayofmonth(createtime) from existingTable



由sparkcontext 创建的hiveContext是一个RootContext,而对应的sparkContext其并行度是由SparkConf配置而成的。默认为2.SparkContext是一个Local Context 当指定本地运行时。

hiveContext通过执行sql语句指定当前即将执行语句的数据库。返回的是一个DataFrame。

DataFrame的show() 方法默认展示20行,且列内数据靠右展示。可以指定展示的行数以及是否被截断(false,靠左展示)。

hiveContext可以针对当前指定的数据库内的一张表进行分析。可以通过调用table(tableName)获取指定数据表的全部数据。通过tables()方法获取当前数据库内所有的数据表名及相关信息的DataFrame格式,也可以通过tables(databaseName)。可以通过tableNames()方法返回Array[String]类型的数据表名,也可以获取指定数据库的表名tableNames(databaseName).

refreshTable(tableName) 将指定表的所有元数据缓存信息进行无效操作和刷新操作。Spark SQL或其他的数据源可能会缓存一张固定表的元数据,比如块位置。当这些元数据不是通过SPark SQL 进行更改时,可以使用本方法将当前内存中的元数据缓存无效化。

hiveContext.emptyDataFrame 返回一个空的DataFrame 等同于 createDataFrame(sparkContext.emptyRDD[Row],StructType(Nil))

hiveContext.range(start:Long,end:Long,step:Long,numPartitions:Int) Long类型 返回一个Datarame 是起始数据的间隔数据序列的并行化RDD,然后转化为DataFrame.等同于:

createDataFrame(hiveContext.sparkContext.range(start,end,step,numPartitions).map(Row(_)),StructType(StructField("id",LongType,Nullable = false)::Nil))

DataFrame.registerTempTable(tableName)  当前临时表的生命周期与创建该DataFrame的SQLContext一致。

cacheTable(tableName) 在内存中进行持久化序列缓存  该表为hiveContext已读取的表或者创建的临时表,

isCached(tableName) 验证当前表是否在内存中进行了缓存,如果该表是临时表被drop 或者 没有进行使用hiveContext读取,ze会抛出异常 改表不存在。dropTempTable(tableName) 从目录中删除指定临时表,如果表被缓存或者持久化,仍然不进行持久化。 直接drop。

clearTable()  从内存中清除所有的缓存  cacheTable() 缓存指定表  unCacheTable() 从内存缓存中移除指定的表。

针对hiveContext进行相关操作时,需要引入import hiveContext.implicits._

hiveContext.read().Option("path",Path:String = "/user/shidaiwu/test/dtJson").format("Json").load()  read 读取操作返回的是DataFrameReader,Option添加一些key-value 对,比如路径,如果不指定路径,需要在load()时指定相关路径,且load()返回的是dataFrame,如果不指定将要读取文件的格式默认读取的是Parquet文件。指定的化,需要针对DataFrameReader进行format("Json")或("text")等操作指定将要读取文件的格式类型。

hiveContext.read().format("Json").load(Path:String = "/user/shidaiwu/test/dtJson")

hiveContext.read.parquet(parquetFilePath) 返回的是DataFrame  读取parquet文件

hiveContext.read.json(jsonFilePath) 返回的是DataFrame 读取Json文件  Json格式文件

hiveContext.read.text(texttFilePath) 返回的是DataFrame 读取Text文件 只支持String列Column,其余格式数据会报错。

hiveContext.read.table(TableName) 从当前数据库中读取数据表所有数据  或者临时表 或者内存中的相关缓存表

hiveContext.read.jdbc(url:String,table:String,properties:Properties),与关系型数据库进行数据连接,properties主要是用户名和密码,url是数据库所在的连接url,读取指定表的数据。

DataFrame.write.format("json").option("path",JsonFilePath = "/user/shidaiwu/test/dtJson") .save() 保存到指定路径 指定文件格式

DataFrame.write.save(path) 默认保存为parquet格式文件

DataFrame.write.saveAsTable(tableName) 在当前数据库中保存当前DataFrame,如果表存在 写入mode为overwrite,则删除后insert,如果append则需要两个schema相同,如果不知定mode,则报异常。,如果表不存在 则直接写入当前表。

DataFrame.write.insertInto(tableName) 插入已存在的表,如果表不存在报异常,如果schema不同,报异常。

DataFrame.write.jdbc() .....一些列配置文件 如果overwrite 无所谓删除再插入,如果append schema一定要一样,如果表不存在,直接写入。

DataFrame.write.json(path)

DataFrame.write.parquet(path)   写入的parquetFile的分区是由DataFrame的分区决定的

DataFrame.write.text(path)

写入时 可以结合option format  save等操作结合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,699评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,124评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,127评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,342评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,356评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,057评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,654评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,572评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,095评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,205评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,343评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,015评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,704评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,196评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,320评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,690评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,348评论 2 358

推荐阅读更多精彩内容