Windows上的PyCharm 远程连接调试pyspark

在实验室配置了一个Spark集群,传统的方法就是在Windows本地开发项目,完了后打包,然后上传到Linux服务器上,最后执行spark-submit 。但是在实际开发用还是感觉用IDE比较好,于是找到了Pycharm远程连接Linux服务器开发Spark项目的方法。

1.设置环境变量

在Linux中/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib 目录下py4j 包添加在系统环境变量中,注意源码包的版本问题,要与下面安装的py4j 的版本一致才行。

vim /etc/profile
#添加环境变量
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
#生效
source /etc/profile

2.远程服务器同步配置

2.1在Linux上安装py4j

我的集群(Centos 7)上原本是Python2.7 ,后来是工作需要改为了Python3.6.4 。在Centos 7 安装py4j 首先要安装pip3 ,这里采用Yum安装的方式。

在使用yum安装的时候会出现无法使用yum的错误,根据提示信息将文件最上面的改为python2.7即可。

yum install pip3
pip3 install py4j
image.png

2.2配置Deployment

首先我们需要配置PyCharm通服务器的代码同步,打开Tools | Deployment | Configuration

点击左边的“+”添加一个部署配置,输入名字,类型选SFTP

image.png

添加一个部署配置,输入自己的远程服务器的IP地址59.68.29.XXRoot path 填写Linux服务器中的文件上传的根目录,注意这个目录必须当前用户有权创建文件,User name 为登录Linux服务器登录名,可以先测试一下连接是否成功。

image.png

Mapping 选项中,Local Path为Windows下的项目存放路径,就是将本地目录同步到服务器上面,Deployment path on server'tset' 的意思就是在上面的Root Path 路径后面追加的路径地址。

image.png

2.3Python interpreter配置

配置Python的解释器,下面先添加远程服务器:

image.png

采用SSH连接,添加下面的基本参数即可。

image.png

如果在Package中没有自动导入这个包需要手动添加,点击右边的加号即可。

image.png
image.png

3.配置Run以及运行实例

将上面的配置结束之后,配置Run的参数。主要是配置Environment variables 参数,将SPARK_HOME =/usr/local/spark/spark-2.2.0-bin-hadoop2.7PYTHONPATH=/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python ,因为我的spark集群建立在hadoop上我还添加了HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.2JAVA_HOME=/usr/local/java/jdk1.8.0_144配置好就行了。

image.png

最后先将项目上传到Linux服务器中,Update to.. 是可以选择不同的远程服务器。

image.png

实例代码:

import os
import sys

from pyspark.sql import SparkSession

#os.environ['SPARK_HOME'] = 'usr/local/spark/spark-2.2.0-bin-hadoop2.7'
#sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python')
sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib')

if __name__ == '__main__':

    spark = SparkSession.builder\
        .appName("Python Spark SQL basic example")\
        .config("spark.some.config.option", "some-value")\
        .getOrCreate()

    spark.sql("show databases").show()

运行结果:

image.png

运行成功!但是出现的问题是我的这个数据库是连接的是哪个数据库呢?我集群中的用的是Hive中元数据库为Mysql,有以下数据库:

image.png

这个错误待解决......

4.参考资料

https://www.bbsmax.com/A/gGdXVO9QJ4/

http://blog.csdn.net/u014770372/article/details/78957188

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容