spark创建SparkSession

SparkSession介绍

SparkSession 是 spark2.0 引入的概念,可以代替 SparkContext,SparkSession 内部封装了 SQLContext 和 HiveContext,使用更方便。

  • SQLContext:它是 sparkSQL 的入口点,sparkSQL 的应用必须创建一个 SQLContext 或者 HiveContext 的类实例;
  • HiveContext:它是 sparkSQL 的另一个入口点,它继承自 SQLContext,用于处理 hive 中的数据。

使用

官方例子:https://spark.apache.org/docs/2.4.7/api/python/pyspark.sql.html?highlight=sparksession#pyspark.sql.SparkSession

from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local")\
        .appName("cal person")\
        .config("spark.sql.execution.arrow.enabled", "true")\
        .getOrCreate()
  • master: 设置运行方式:local代表本机单核运行,local[4]代表在本机用4核跑,spark://master:7077是以standalone方式运行;
  • appName: 设置spark程序的名字,可以在web UI界面看到;
  • config: 附加配置项;
  • getOrCreate: 创建一个SparkSession。

参考链接

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容