240 发简信
IP属地:陕西
  • 正则表达式解析包含中英文的unicode字符串

    在抽取oracle等数据库时,由于编码问题需要处理unicode字符串,将字符串中的特殊符号和中文还原。例如:如下UNISTR字符串 UNIST...

  • Resize,w 360,h 240
    本地用spark访问开启Kerberos认证的华为云端hive

    本地IDEA搭建开发环境,实现local模式spark对开启Kerberos认证的云端hive数据进行读写操作。 一、环境版本:本地PC: wi...

  • Resize,w 360,h 240
    CDH-hdfs配置HA后,hive查询报错

    在CDH平台上配置HA后,hdfs服务正常运行,hive服务可以正常连接,但是进行查询时报错。现象:查询时卡主不动,然后报错显示旧的那么name...

  • CDH平台-Hue集成Oracle报错:no oracle client library found on host:…

    在Hue的编辑器中可以集成Oralce进行查询,集成过程中报错:no oracle client library found on host:…...

  • Spark SQL UDF函数的两种注册方式

    SparkSQL中可以创建自定义函数UDF对dataframe进行操作,UDF是一对一的关系,用于给dataframe增加一列数据的场景。 每次...

  • Spark中Rdd转换为DataFrame的两种方式

    1. Spark SQL中,将已存在的RDD转换为DataFrame的两种方式。 Inferring the Schema Using Refl...

  • Resize,w 360,h 240
    Spark中Rdd、Dataframe、Dataset的区别

    1. 概述 本文章将从多个角度介绍Spark中RDD,DataFrame和Dataset的概念以及它们之间的区别。例如,数据表示,不变性和互操作...

  • SparkSQL DataFrame新增一列的四种方法

    SparkSQL中,有时需要根据需求基于原数据新增一些列,下面介绍一下dataframe新增列的四种方法,根据情况可采用不同的方法实现需求。

  • Spark通过jdbc采用分区的方式从oracle读数据

    spark通过jdbc可以从oracle中直接读取数据,返回dataframe。有时由于数据量较大,我们可以采用分区方式通过jdbc多线程并行从...