如何在CDH集群上部署Python3运行环境及运行Python作业

测试环境

1.CM和CDH版本为5.11.2,Spark On Yarn模式

2.基于Anaconda部署Python3

下载anaconda包,3.4.2版本的Anaconda和3.5.2的python,下载地址:https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh

版本需要注意的是PySpark does not work with Python 3.6.0,SPARK-19019

https://issues.apache.org/jira/browse/SPARK-19019

安装:sh /server/Anaconda3-4.2.0-Linux-x86_64.sh,一直默认即可,注意选择自己的安装目录,最好写path路径时候,no

因为我们要配置全局的路径

echo "export PATH=/server/anaconda3/bin:$PATH">>/etc/profile

source /etc/profile

当前这个操作不需要安装也可以:使用conda创建python3环境并激活,conda create --unknown --offline -n py3 python=3.5

(注意:这里创建python3环境时使用了离线模式,即--offline参数,以及—unknown,这种方式适合安装没有依赖的python包,如果有依赖使用conda install会报错,需要搭建一个内部仓库。)

进入python35环境:source activate python35

在CM配置Python环境变量


测试:

进入spark2安装目录:cd /server/opt/cloudera/parcels/SPARK2/bin

root用户,执行命令./pyspark2,   会报错说  Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x

解决办法:

1.切换到hdfs用户

2.修hdfs目录/user的权限  hdfs dfs -chmod 777 /user


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容