Mac OS X上搭建伪分布式CDH版本Hadoop开发环境

最近在研究数据挖掘相关的东西,在本地 Mac 环境搭建了一套伪分布式的 hadoop 开发环境,采用CDH发行版本,中间遇到各种坑,于是还是想把一些过程给记录下来,供大家参考吧。

环境如下:
macOS 10.13.6 (17G65)
build 1.8.0_181-b13

首先安装JDK,这里我省略了,因为我的机器上有IDEA的环境,所以已经有了,没有的同学请自行解决吧,网上搜一下很多教程,唯一需要提的是别忘记添加环境变量,然后source ~/.bash_profile生效哦!

export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.x_xx.jdk/Contents/Home"

其实是本地SSH 登录,这里由于我机器上之前已经生成过RSA的秘钥,所以直接执行这一步即可

cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys
image

最后验证 ssh localhost 不弹框直接ok就算是过了。

接下来就是去下载CDH的安装包了 https://archive.cloudera.com/cdh5/cdh/5/
当然,如果是国内用户可以选择这个地址 http://archive-primary.cloudera.com/cdh5/cdh/5/,下载起来速度更快
查找下面四个文件并下载到本地

hadoop-2.6.0-cdh5.9.3.tar.gz   
hbase-1.2.0-cdh5.9.3.tar.gz   
hive-1.1.0-cdh5.9.3.tar.gz     
zookeeper-3.4.5-cdh5.9.3.tar.gz

下一步就是建立 CDH 环境了,打开Terminal,执行以下命令

mkdir -p ~/cloudera/lib ~/cloudera/cdh5.9 ~/cloudera/ops/dn ~/cloudera/ops/logs/hadoop ~/cloudera/ops/logs/hbase ~/cloudera/ops/logs/yarn ~/cloudera/nn ~/cloudera/pids ~/cloudera/tmp ~/cloudera/zk

将上一步下载的四个压缩包拷贝到 ~/cloudera/lib 目录,并打开命令行执行以下命令

tar -xvf hadoop-2.6.0-cdh5.9.3.tar.gz
...

命令行中 cd ~/cloudera/cdh5.9 ,并执行以下命令

ln -s ~/cloudera/lib/hadoop-2.6.0-cdh5.9.3 hadoop
ln -s ~/cloudera/lib/hbase-1.2.0-cdh5.9.3 hbase 
ln -s ~/cloudera/lib/hive-1.1.0-cdh5.9.3 hive
ln -s ~/cloudera/lib/zookeeper-3.4.5-cdh5.9.3 zookeeper

然后是编辑配置文件

CDH="cdh5.9"

export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.x_xx.jdk/Contents/Home"

export HADOOP_HOME="/Users/你的用户名/cloudera/${CDH}/hadoop"

export HBASE_HOME="/Users/你的用户名/cloudera/${CDH}/hbase"

export HIVE_HOME="/Users/你的用户名/cloudera/${CDH}/hive"

export HCAT_HOME="/Users/你的用户名/cloudera/${CDH}/hive/hcatalog"

export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:${HCAT_HOME}/bin:${PATH}

然后开始编辑下列一系列文件,注意这里的路径一定要和你本地的适配起来,这里的用户名是我的,大家记得不要盲目拷贝哦。

$HADOOP_HOME/etc/hadoop/core-site.xml

$HADOOP_HOME/etc/hadoop/hdfs-site.xml

$HADOOP_HOME/etc/hadoop/yarn-site.xml

$HADOOP_HOME/etc/hadoop/mapred-site.xml

这里的hadoop-env.sh要特别注意,配置是我本地修改以后的,因为native部分无法启动,所以我需要忽略这部分的配置

# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements.  See the NOTICE file
# distributed with this work for additional information
# regarding copyright ownership.  The ASF licenses this file
# to you under the Apache License, Version 2.0 (the
# "License"); you may not use this file except in compliance
# with the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Set Hadoop-specific environment variables here.

# The only required environment variable is JAVA_HOME.  All others are
# optional.  When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.

# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}

# The jsvc implementation to use. Jsvc is required to run secure datanodes.
#export JSVC_HOME=${JSVC_HOME}

export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/etc/hadoop"}

# Extra Java CLASSPATH elements.  Automatically insert capacity-scheduler.
for f in $HADOOP_HOME/contrib/capacity-scheduler/*.jar; do
  if [ "$HADOOP_CLASSPATH" ]; then
    export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f
  else
    export HADOOP_CLASSPATH=$f
  fi
done

# The maximum amount of heap to use, in MB. Default is 1000.
#export HADOOP_HEAPSIZE=
#export HADOOP_NAMENODE_INIT_HEAPSIZE=""

# Extra Java runtime options.  Empty by default.
#export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.library.path=/Users/savy.pan/Playground/lib/hadoop/share/hadoop/mapreduce1/lib/native/Mac_OS_X-64"

# Command specific options appended to HADOOP_OPTS when specified
export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS"

export HADOOP_SECONDARYNAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_SECONDARYNAMENODE_OPTS"

export HADOOP_NFS3_OPTS="$HADOOP_NFS3_OPTS"
export HADOOP_PORTMAP_OPTS="-Xmx512m $HADOOP_PORTMAP_OPTS"

# The following applies to multiple commands (fs, dfs, fsck, distcp etc)
export HADOOP_CLIENT_OPTS="-Xmx512m $HADOOP_CLIENT_OPTS"
#HADOOP_JAVA_PLATFORM_OPTS="-XX:-UsePerfData $HADOOP_JAVA_PLATFORM_OPTS"

# On secure datanodes, user to run the datanode as after dropping privileges
export HADOOP_SECURE_DN_USER=${HADOOP_SECURE_DN_USER}

# Where log files are stored.  $HADOOP_HOME/logs by default.
export HADOOP_LOG_DIR="/Users/savy.pan/cloudera/ops/logs/hadoop"
export YARN_LOG_DIR="/Users/savy.pan/cloudera/ops/logs/yarn"

# Where log files are stored in the secure data environment.
export HADOOP_SECURE_DN_LOG_DIR=${HADOOP_LOG_DIR}/${HADOOP_HDFS_USER}

# The directory where pid files are stored. /tmp by default.
# NOTE: this should be set to a directory that can only be written to by 
#       the user that will run the hadoop daemons.  Otherwise there is the
#       potential for a symlink attack.
export HADOOP_PID_DIR="/Users/savy.pan/cloudera/pids"
export HADOOP_SECURE_DN_PID_DIR=${HADOOP_PID_DIR}
export YARN_PID_DIR=${HADOOP_PID_DIR}

# A string representing this instance of hadoop. $USER by default.
export HADOOP_IDENT_STRING=$USER

$HBASE_HOME/conf/hbase-site.xml

$HBASE_HOME/conf/hbase-env.sh

然后还有就是zookeeper的配置了,在conf目录下新建zoo.cfg文件和创建data和logs目录

tickTime=2000
dataDir=/Users/savy.pan/cloudera/ops/logs/zk/data
dataLogDir=/Users/savy.pan/cloudera/ops/logs/zk/logs
clientPort=2181

开始运行!

命令行中执行命令

hdfs namenode -format

这里如果有同学遇到format abort错误,请切记,在系统让你选择Yes Or No的时候一定要注意大小写,我就是被这个坑过了,同时注意权限,后面的log文件中大家可以去看一下,很多时候是本地用户组权限太高导致的。

编辑文件 $HADOOP_HOME/libexec/hadoop-config.sh,查找 # Attempt to set JAVA_HOME if it is not set 到这一行,把下面的四行代码中。

if [ -x /usr/libexec/java_home ]; then
        export JAVA_HOME=($(/usr/libexec/java_home))
else
        export JAVA_HOME=(/Library/Java/Home)
fi

多余的两对括号去除,变成下面这样

if [ -x /usr/libexec/java_home ]; then
        export JAVA_HOME=$(/usr/libexec/java_home)
else
        export JAVA_HOME=/Library/Java/Home
fi

这两对括号会导致取值不正确,最后 yarn 中会只用硬编码的 JAVA_HOME=/bin/ 来寻找 java 命令的位置,导致所有的任务都会执行失败。

启动服务

一开始我直接启动hbase发现无法查看网页,查找log以后发现它会去尝试连zookeeper,所以这里在启动之前要先启动zookeeper,这在很多时候文档上都没有写,坑死了!

sh $HADOOP_HOME/sbin/start-dfs.sh
sh $HADOOP_HOME/sbin/start-yarn.sh
./zkServer.sh start
sh $HBASE_HOME/bin/start-hbase.sh

至于停止服务的命令大家自行去了解吧,我这里就不贴了。

服务管理地址

HDFS: http://localhost:50070/dfshealth.html
Yarn Scheduler: http://localhost:8088/cluster
Yarn NodeManager: http://localhost:8042/node
HBase: http://localhost:60010/master.jsp

测试 MR 任务

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.9.3.jar pi 100 100
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容