登录注册写文章

如何在jupyter notebook中使用pyspark

如何在jupyter notebook中使用pyspark

注：电脑上必须已经安装java

第一步：转到官方Apache Spark下载最新版本的Apache Spark，我下载的是spark-2.4.5-bin-hadoop2.6

第二步：解压缩下载的Spark tar文件

$ tar -xvf Downloads/spark-2.4.5-bin-hadoop2.6.tgz

第三步：在启动PySpark之前，需要在/etc/profile中设置以下环境变量

export SPARK_HOME=/home/luban/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:/home/luban/spark-2.4.5-bin-hadoop2.6/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
export PYSPARK_PYTHON=python3

第四步：更新配置文件

$ source /etc/profile

第五步：安装findspark，并启动或者重启jupyter notebook

$ pip install findspark
$ jupyter notebook

第六步：在import pyspark前，运行findspark，它会找到spark安装的位置

import findspark
findspark.init()

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

远程通过jupyter(ipython) notebook调用服务器环境运行Spark（pys...
第一步，ipython调用pyspark 步骤可以参考这里，生成 notebook 配置文件修改生成的note...
gg5d阅读 7,606评论 0赞 2
spark
spark spark的安装安装Scala下载页面：http://www.scala-lang.org/file...
懂事的观众阅读 3,173评论 0赞 0

搭建Spark虚拟环境
一个多月的地铁阅读时光，阅读《Spark for python developers》电子书，不动笔墨不看书，随手...
abel_cao阅读 7,796评论 1赞 8
PySpark安装+Jupyter Notebook配置（Ubuntu 18.06）
学校一门Big Data Computing需要学习Spark in Python。这篇文章记录一下安装PySpa...
ColleenKuang阅读 11,939评论 4赞 7
Jupyter与Spark开发环境配置指南
Jupyter与Spark开发环境配置指南什么是Spark？ Spark是使用大量数据进行计算的框架。为什么需要...
Datartisan数据工匠阅读 12,164评论 1赞 8

赞1赞

赞赏

手机看全文