240 发简信
IP属地:北京
  • 貌似2.0以后的版本都不需要partitionBy 了,hive建表的时候指定分区就可以,可以试试直接插入或用saveAsTable

    Spark 写入数据到Hive分区表

    0.登录hive数据库,这里采用beeline 1.创建数据库 有两种方式,可以在hive客户端或beeline连接hive创建,也可以在spark中创建,以hive she...

  • Spark 基础概念释义

    1.RDD:弹性分布式数据集,弹性体现在可以在磁盘和内存间自由切换;基于lineage(血统)的容错;task失败特定次数重试;stage失败重试;数据分片的高度弹性(rep...

  • 120
    如何保证消息队列的高可用和幂等性以及数据丢失,顺序一致性

    (1)RabbitMQ的高可用性 RabbitMQ是比较有代表性的,因为是基于主从做高可用性的,我们就以他为例子讲解第一种MQ的高可用性怎么实现。 rabbitmq有三种模式...

  • 120
    Mongo、Redis、Memcached对比及知识总结

    存储原理(持久化) MongoMongo的数据将会保存在底层文件系统,因此存储容量远大于redis和memcached。一个database中所有的collections以及...

  • Nignx 配置反向代理

    解决问题:使用nignx完成http转https和二级域名转发,将已有http通信的web前端转为https,包括主域和一个二级域名,这两个domain解析到同一ip。Ngi...

  • Ubuntu 更新python2.7版本至最新

    系统自带的python2版本为python2.7.6,版本太低,需要更新至2.7最新,直接下载2.7.15更新后有各种问题,在此记录下整个过程。最后使用python源码安装,...

  • Spark 写入数据到Hive分区表

    0.登录hive数据库,这里采用beeline 1.创建数据库 有两种方式,可以在hive客户端或beeline连接hive创建,也可以在spark中创建,以hive she...

个人介绍
工作中最可贵的是学习持久力