安装Spark的过程记录

Windows上安装Spark的过程有些繁琐,遇到不少坑,所以整理并记录一下自己的安装和配置步骤:

主要参考链接:

https://blog.csdn.net/qq_28626909/article/details/81632634

https://www.cnblogs.com/cuiocean/p/7630529.html

https://www.cnblogs.com/xuliangxing/p/7279662.html


第1步:在anaconda prompt中安装pyspark:

pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark


第2步:安装java(必须是jdk8

官网下载:https://www.oracle.com/technetwork/java/javase/downloads/index.html

环境配置参考:https://www.cnblogs.com/iceb/p/7561752.html


第3步:安装Scala

官网下载:https://www.scala-lang.org/download/

环境配置参考:https://www.cnblogs.com/liuwei6/p/6951240.html


第4步:安装Spark

解压文件,配置路径

win10右击“开始”→ Windows PowerShell(管理员)

运行spark-shell,如果报错,需要查看错误原因。看网上大多数的报错是因为没有安装Hadoop以及缺少winutils文件。


第5步:安装Hadoop(用管理员身份解压)

官网下载:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/


第6步:安装hadoop winutils:

下载:https://github.com/steveloughran/winutils

选择你要的hadoop版本号,比如2.7.1,你只需要下载winutils.exe,然后拷贝到C:\Hadoop\bin(根据你Hadoop解压的路径调整)文件夹中。

如果处理winutil.exe时遇到了ChangeFileModeByMask error (3): ??? 这个问题:

需要在C盘创建tmp/hive文件夹(关键),

然后输入命令行:D:\hadoop\bin\winutils.exe chmod 777 C:/tmp/hive

调整路径参考:https://blog.csdn.net/abc50319/article/details/80284741

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 单机版spark搭建备忘:注意:scala搭配java8 过高的版本不兼容,以下网址下载java8https://...
    wong11阅读 850评论 0 1
  • Scala语法 至于scala语法而言,大致上和Java的语法类似,增加了一些函数式编程,具体语法可以参考Scal...
    卡卡xx阅读 3,158评论 0 1
  • spark-submit的时候如何引入外部jar包 在通过spark-submit提交任务时,可以通过添加配置参数...
    博弈史密斯阅读 3,033评论 1 14
  • Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...
    大佛爱读书阅读 2,982评论 0 20
  • 由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍S...
    weizier阅读 19,483评论 10 26

友情链接更多精彩内容