spark之旅-4.spark-sql

Spark-SQL

Spark-SQL,思维导图

Spark-SQL:
    起点:
        SparkSession
    数据集:
        RDD
        DataFrame
        DataSet
    语法:
        SQL 语法
        DSL 语法
    转化:
        RDD <-> DataFrame :
                    rdd.toDF
                    df.rdd
        RDD <-> DataSet  :
                    rdd.toDS Case 类
                    ds.rdd
        DataFrame<-> DataSet :
                    df.as
                    ds.toDF
    函数:
        SQL 函数
        UDF :
                    Scala spark.udf.register("addName",(x:String)=> "Name:"+x)
                    Java spark.udf().register("addName", (UDF1<String, String>) s -> "name: " + s, DataTypes.StringType);
                    spark.sql("Select addName(name),age from people").show()
        UDAF :
                    UserDefinedAggregateFunction  弱类型   (过时)
                    Aggregator  强类型
        开窗函数

    加载和保存:
        加载数据:
                    spark.read.format("…")[.option("…")].load("…")
        保存数据:
                    df.write.format("…")[.option("…")].save("…")
        数据格式:
                    Parquet
                    JSON
                    CSV
                    MySQL
                    Hive (内置与外置):
                        Spark SQL CLI
                        Spark beeline
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容