Big Data computing 下课之后回去试着搭建了一下spark环境,在这里记录安装过程中遇到的坑及解决方法和一些待解决的问题。
mac上的python环境:Anaconda for python 2.7。(原来我用的Anaconda for python3.6,但是在用pyspark的过程中会遇到一个不能解决的bug,所以又重新装了python2.7)
下面是我的配置过程,黑色加粗字体是要在terminal中敲的命令
1. 在spark官网上下载spark文件包
2. 打开terminal
3. 打开下载的spark所在的路径
cd downloads
4. 解压压缩包
tar -zxvf spark-2.1.0-bin-hadoop2.7.tar
5. 把解压后的文件移动到home路径下
mv spark-2.1.0-bin-hadoop2.7/~/spark-2.1.0
6. 设置环境变量
nano .bash_profile
o 在bash profile 里添加下面两句
export SPARK_PATH=~/spark-2.1.0
export PATH=$SPARK_PATH/bin:$PATH
保存并推出 (command+x)
7. 环境变量会在你下次打开terminal时自动生效,如果想立刻生效,用下面的source命令
source .bash_profile
8.键入pyspark看看是不是成功
pyspark
## 以上这些步骤如果是python3.6环境中会报TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'
## 有人在github上提出了这个问题,不过我没有看懂是如何解决的。github上关于pyspark+python3.6
9. 如果想在ipython notebook中使用pyspark,在第六步中bash_profile文件中追加下面三行:
export PYSPARK_DRIVER_PYTHON="ipython"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
alias snotebook='$SPARK_PATH/bin/pyspark --masterlocal[2]'
10. source .bash_profile
11. 在terminal中键入pyspark或者snotebook。snotebook 是别名,可以在第九步设置环境变量的过程中任意命名。Local[2] 表示我们为它分配了两个核。
12.打开了ipython notebook之后可以尝试下面命令看看spark配置是否成功
sc.parallelize(range(100),8).take(5)