windows下安装spark-python

首先需要安装Java

下载安装并配置Spark

从官方网站Download Apache Spark™下载相应版本的spark,因为spark是基于hadoop的,需要下载对应版本的hadoop才行,这个页面有对hadoop的版本要求,点击Download Spark: spark-2.3.1-bin-hadoop2.7.tgz就可以下载压缩包了,对应的hadoop版本要在Hadoop2.7及其以后。


这里解压到D:\spark-2.3.1-bin-hadoop2.7,为了后续操作简便,这里将解压以后的文件夹名称改为spark,这样解压的路径就是D:\spark

配置环境变量

右键我的电脑,依次点击属性-高级系统设置-环境变量

新建用户变量 SPARK_HOME    D:\spark


找到系统变量Path  点击按钮新建,然后添加文本%SPARK_HOME%\bin,按回车enter,继续新建一个,添加文本%SPARK_HOME%\sbin,按键回车,一直点击确定,就保存了更改,这样就将bin、sbin文件夹中的程序放到了系统变量中


pyspark:到这里spark的配置完成了一部分,还有pyspark需要配置,pyspark等anaconda安装后在下文中讨论,pyspark的安装有几种方式,其中解压以后的spark文件夹中就有pyspark库,可以安装到python的库当中去;还可以不复制,pyspark可以通过pip单独安装,还有一种是单独下载pyspark的安装包,解压以后安装到python库当中去。




安装并配置Hadoop

上面安装spark的时候有对hadoop的版本要求,这里要求的是2.7及以后的版本,进入官方网站Apache Hadoop Releases下载2.7.6 binary版本,其中source版本是该版本hadoop的源代码,下载以后解压到D:\hadoop-2.7.6,为了后续操作方便,解压以后修改文件夹名称为hadoop,这样文件夹就是D:\hadoop


配置环境变量:

右键我的电脑,依次点击属性-高级系统设置-环境变量


新增用户变量 HADOOP_HOME D:\hadoop

然后找到系统变量Path  点击按钮新建,然后添加文本%HADOOP%\bin,按回车enter,继续新建一个,添加文本%HADOOP%\sbin,按键回车,一直点击确定,就保存了更改,这样就将bin、sbin文件夹中的程序放到了系统变量中


从网站中下载点击打开链接一个压缩包,然后解压出来,复制其中的winutils.exe和winutils.pdb到hadoop的安装文件夹中,复制目录为:D:\hadoop\bin,复制到这个目录中

当输入命令pyspark出现以下结果时表明spark安装配置完成了

安装并配置anaconda






anaconda官方网站中下载并安装对应版本的anaconda,安装路径这里的是C:\Anaconda3.5.2.0,其中需要注意的一点是,需要勾选第一个将anaconda加入环境变量的选项,这样就不需要我们自己将它的路径加入到环境变量中去了

安装anaconda不是必须的,必须安装的是python,单独只安装python也是可以的,但是anaconda当中集成了很多需要用到的库,为了方便起见,这里安装的是anaconda。

配置pyspark库   anaconda包含pyspark

之前在安装spark的时候,提到过pyspark库的安装有几种方法,一种方法是直接将spark自带的pyspark库安装到python的库当中去;一种是使用命令pip install pyspark安装;还有一种是单独下载pyspark的安装包,解压以后安装到python库当中去。这几种方法,这里都会进行讲解。


将spark自带的pyspark库安装到python:

以管理员身份打开cmd,按一下键盘上的window键,依次选中Windows 系统,右键命令提示符,点击更多,点击以管理员身份运行


进入spark安装目录的python文件夹,cd D:\spark\python

C:\>cd D:\spark\python

C:\>d:


D:\spark\python>


输入命令 python setup.py install,等待安装完成,

D:\spark\python>python setup.py install


出现这个图时pyspark就安装好了


pip install pyspark命令行方式安装:

同上面打开cmd的方式相同,需要以管理员身份运行,按一下键盘上的window键,依次选中Windows 系统,右键命令提示符,点击更多,点击以管理员身份运行

输入命令 pip install pyspark,等待安装完成,这里需要注意的是,pyspark本身的安装包占用磁盘空间很多,有几百M,这种方式安装需要在线下载pyspark,网速不错的话,是非常推荐的,这种方式最简单,只需要一行命令就行了。


单独下载安装pyspark:

进入pyspark的PyPI的网站,点击左侧的Download files,下载pyspark的安装包,然后解压好,这里解压的路径是D:\pyspark-2.3.1


同上面打开cmd的方式相同,需要以管理员身份运行,按一下键盘上的window键,依次选中Windows 系统,右键命令提示符,点击更多,点击以管理员身份运行

进入解压以后文件夹的目录

输入命令行 python setup.py install ,等待安装完成,pyspark就安装完成了

D:\pyspark-2.3.1>python setup.py install

以上几种方式都可以安装pyspark,其中最方便的方式是使用命令行 pip install pyspark,下面将讲解pycharm的安装配置过程,并演示一个python编写spark的示例。



安装并配置Pycharm

Pycharm的官方网站中下载pycharm的community版本,这个版本是免费的,按照默认配置安装就可以

安装好以后打开pycharm,根据自己的喜好配置界面,到这一步时,可以安装一些插件,这里安装的是Markdown


进入打开界面时打开settings

选择好Project Interpreter,点击右侧的下拉链,然后点击show all


点击+号,添加项目解释器,选中其中的Conda Environment,然后点击Existing environment,点击右侧的选择按钮,进入目录C:\Anaconda3.5.2.0,选中其中的python.exe文件,然后一直点击OK


等待库载入完成以后,点击OK,就完成了Project Interpreter的配置,等待更新完成,或者让它在后台运行


这个是在最开始的时候配置Project Interpreter,进入界面以后,可以在File-Settings或者File-Default_Settings中设置

设置自己的字体,在File-Settings-Editor-Font当中设置


使用python来编写spark的WordCount程序实例流程

新建一个项目,编辑好项目的存放目录以后,需要注意选择Existing interpreter,而不是New interpreter,上一步就是在配置Project interpreter,需要点击选择已经配置好的解释器。新建一个项目还依次点击按钮File-Setting-New Project

等待pycharm配置好,右下角会有提示的,等这个任务完成以后,就可以新建python文件了

点击Create就创建好了一个项目,鼠标放在左侧项目然后右键,依次点击New-Python File,创建一个python文件WordCount.py

进入WordCount.py文件写入如下代码,就是中文版WordCount,很经典的分布式程序,需要用到中文分词库jieba,去除停用词再进行计数

新建两个文件

jieba分词https://pypi.org/project/jieba/#files


下载完后将导入项目中

from pyspark.contextimport SparkContext

import jieba

sc = SparkContext("local", "WordCount")#初始化配置

data = sc.textFile(r"D:\WordCount.txt")#读取是utf-8编码的文件

with open(r'd:\中文停用词库.txt','r',encoding='utf-8')as f:

x=f.readlines()

stop=[i.replace('\n','')for iin x]

print(stop)

stop.extend([',','的','我','他','','。',' ','\n','?',';',':','-','(',')','!','1909','1920','325','B612','II','III','IV','V','VI','—','‘','’','“','”','…','、'])#停用标点之类

data=data.flatMap(lambda line: jieba.cut(line,cut_all=False)).filter(lambda w: wnot in stop).\

map(lambda w:(w,1)).reduceByKey(lambda w0,w1:w0+w1).sortBy(lambda x:x[1],ascending=False)

print(data.take(100))




最终结果是:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容