如何在jupyter notebook中使用pyspark

注:电脑上必须已经安装java

第一步:转到官方Apache Spark下载最新版本的Apache Spark,我下载的是spark-2.4.5-bin-hadoop2.6

第二步:解压缩下载的Spark tar文件

$ tar -xvf Downloads/spark-2.4.5-bin-hadoop2.6.tgz

第三步:在启动PySpark之前,需要在/etc/profile中设置以下环境变量

export SPARK_HOME=/home/luban/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:/home/luban/spark-2.4.5-bin-hadoop2.6/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
export PYSPARK_PYTHON=python3

第四步:更新配置文件

$ source /etc/profile

第五步:安装findspark,并启动或者重启jupyter notebook

$ pip install findspark
$ jupyter notebook

第六步:在import pyspark前,运行findspark,它会找到spark安装的位置

import findspark
findspark.init()
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容