Spark集群环境搭建

Spark集群环境搭建

    -0. 前提:配置好Hadoop和JAVA的开发环境


    -1. 上传Spark和Scala压缩包(到~/software文件夹中)


    -2. 解压压缩包

    $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6cdh版本已经编译好的cdh版本已经编译好的.tgz -C ~/modules/

    $ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/


    -3. 配置环境变量

    $ vim ~/.bash_profile

# SCALA

export SCALA_HOME=/home/hadoop/modules/scala-2.10.4

export PATH=$PATH:$SCALA_HOME/bin

# SPARK

export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6

export PATH=$PATH:$SPARK_HOME/bin    

    $ source ~/.bash_profile


    -4. 配置Spark相关参数项

        --1. 进入Spark根目录

        $ cd $SPARK_HOME


        --2. 修改配置文件

        $ mv conf/spark-env.sh.template conf/spark-env.sh

        $ vim conf/spark-env.sh

JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79

SCALA_HOME=/home/hadoop/modules/scala-2.10.4

HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop

SPARK_LOCAL_IP=hadoopeasy    

######

HADOOP_CONF_DIR: 主要是给定spark应用程序连接hadoop相关服务的配置文件所在的文件夹路径是哪个,如果不给定,那么使用默认的HDFS文件系统(file:///)

该参数的作用其实就是将连接HDFS/YARN的相关配置文件添加到spark应用的classpath中,让spark应用可以连接上hdfs或者yarn    

######


    -5. 启动HDFS

    配置了相关环境变量

    $ start-dfs.sh


    -6. Spark环境测试(在同一个目录中,不能同时执行多次Spark根目录下bin文件夹中的命令,否则会报错,报错原因:环境没有集成Hive,解决方案:将Hive配置文件hive-site.xml放到$SPARK_HOME/conf文件夹中,并启动hive相关服务)

        --1. 进入Spark根目录

        $ cd $SPARK_HOME

        --2. 测试一:计算π的值

        $ ./bin/run-example  SparkPi 10

        --3. 测试二:PySpark测试

        $ ./bin/pyspark

Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)

SparkContext available as sc, HiveContext available as sqlContext.

>>>    

        >>> sc   

        >>> rdd = sc.textFile("/test/input/wc.txt")

        >>> rdd.collect()

        备注:还可以通过web页面查看spark应用的执行情况

        textFile: 作用是按照行读取文本文件数据,形成一个RDD,RDD中的元素一行一行的文本

----------------------------------------------------------

Spark开发环境搭建(Windows)

    备注:建议Python版本2.7或者3.5,Python3.6支持不太友好。

    -1. 安装Java和Scala


    -2. 解压Spark安装包,配置Spark开发环境

      将其安装包解压到一个没有中文没有空格的文件夹即可

      eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6


    -3. 配置Python开发插件

      从刚刚解压的spark根目录中将python\lib文件夹中的两个压缩包解压后放到python的对应目录中:

        --a. 解压py4j-0.9-src.zip和pyspark.zip

        --b. 解压后的内容(py4j和pyspark两个文件夹)放到:C:\Python3.5\Lib\site-packages


    -4. 完成环境搭建

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 某日苏学老师用一种极富情感色彩的语气,面对班上举起的仅九只的纤纤玉手,重叹了一句“悲惨啊!” 看其惊天地泣鬼神的悲...
    f028b4f46144阅读 355评论 0 0
  • 初中英语介词知识点:五种介词短语 2015-11-07 中考英语 英语介词不可单独使用,只能与不同的此类构成介词短...
    小绿植物阅读 277评论 0 0
  • Je m'adresse à toutes ces femmes envahissantes. Je tiens ...
    白天不卖豆腐阅读 92评论 0 0
  • 从飞机的舷窗上往下看
    谁在丛中笑阅读 156评论 0 0