在CentOS下搭建Hadoop集群及Hive

hadoop用于存储网站的用户浏览轨迹数据及业务系统的用户操作日志数据,便于后期数据分析提取。由于机器有限,目前只搭建了2台机器作为hadoop集群的节点。

集群节点机器间的免密登录设置

  • 设置机器名
hostname #查看机器名
hostname   hserver1 #设置机器名
  • 修改/etc/hosts文件
    vi /etc/hosts
192.168.1.102   hserver1  
192.168.1.103   hserver2  

ping -c 3 hserver2 #检查是否生效

  • 生成秘钥文件
    执行命令,生成空字符串的秘钥(后面要使用公钥)
ssh-keygen  -t   rsa   -P  ''

由于是root 账户登录 ,所以秘钥文件保存到了/root/.ssh/目录内,可以使用命令查看,命令是:

ls /root/.ssh/
  • 创建authorized_keys文件
    在hserver1的/root/.ssh/目录中生成一个名为authorized_keys的文件,命令是:
touch  /root/.ssh/authorized_keys

将hserver1上的/root/.ssh/id_rsa.pub文件内容,hserver2上的/root/.ssh/id_rsa.pub文件内容复制到这个authorized_keys文件中,将authorized_keys文件复制到其他机器。

另一种方式:
ssh-copy-id命令来复制公钥到要登录的节点中,效果一样

ssh-copy-id -i root@192.168.1.102
  • 测试使用ssh进行无密码登录
    在hserver1上进行测试
ssh   hserver2

希望ssh公钥生效需满足至少下面两个条件: ssh目录的权限必须是700 ssh/authorized_keys文件权限必须是600
chmod 700 /root/.ssh
chmod 600 /root/.ssh/*

安装jdk和hadoop

1、在opt目录下新建一个名为hadoop的目录,并将下载得到的hadoop-2.9.0.tar上载到该目录下
进入到该目录,执行命令:

cd   /opt/hadoop

执行解压命令:

tar  -xvf   hadoop-2.9.0.tar.gz

先在hserver1上把后续的各个配置文件配置好了,然后打包传到hserver2/opt/hadoop/相同目录下

2、在/usr/local/hadoop 目录下新建几个目录 存储Hadoop 数据

mkdir /usr/local/hadoop  
mkdir /usr/local/hadoop/tmp  
mkdir /usr/local/hadoop/var  
mkdir /usr/local/hadoop/dfs  
mkdir /usr/local/hadoop/dfs/name  
mkdir /usr/local/hadoop/dfs/data  

3、修改/opt/hadoop/hadoop-2.9.0/etc/hadoop目录内的一系列文件

  • 修改core-site.xml,在<configuration>节点内加入配置:
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hserver1:9000</value>
</property>
  • 修改hadoop-env.sh 和yarn-env.sh
    将export JAVA_HOME=${JAVA_HOME}
    修改为: export JAVA_HOME=/root/jdk1.8.0_131 说明:修改为自己的JDK路径

  • 修改hdfs-site.xml,在<configuration>节点内加入配置

<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/dfs/name</value>
<description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/dfs/data</value>
<description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.</description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
<description>need not permissions</description>
</property>
  • 新建mapred-site.xml
    复制该文件 mapred-site.xml.template的文件,然后改名为mapred-site.xml
cp   /opt/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml.template     /opt/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml 

修改这个新建的mapred-site.xml文件,在<configuration>节点内加入配置:

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hserver1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hserver1:19888</value>
</property>
  • 修改slaves文件,增加数据节点
    修改/opt/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件,将里面的localhost删除,添加如下内容:
    hserver1
    hserver2

  • 修改yarn-site.xml文件
    在<configuration>节点内加入配置

<property>
<name>yarn.resourcemanager.hostname</name>
<value>hserver1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hserver1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hserver1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hserver1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hserver1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hserver1:8088</value>
</property>

4、启动hadoop

  • 关闭防火墙
  • namenode上执行初始化
    因为hserver1是namenode,hserver1和hserver2都是datanode,所以只需要对hserver1进行初始化操作,也就是对hdfs进行格式化。
    进入到hserver1这台机器的/opt/hadoop/hadoop-2.9.0/bin目录
    执行初始化脚本,也就是执行命令:
hdfs  namenode  -format
  • 在namenode上执行启动命令
    因为hserver1是namenode,hserver1和hserver2都是datanode,所以只需要再hserver1上执行启动命令即可。
    进入到hserver1这台机器的/opt/hadoop/hadoop-2.9.3/sbin目录
    执行启动脚本,也就是执行命令:
start-all.sh

5、测试hadoop
haddoop启动了,需要测试一下hadoop是否正常。
hserver1是我们的namanode,该机器的IP是192.168.1.103,在本地电脑访问如下地址:
http://192.168.1.103:50070/ 自动跳转到了overview页面
http://192.168.1.103:8088/ 自动跳转到了cluster页面

安装hive,并配置mysql作为元数据库

1、下载并解压hive源程序
下载地址1. http://www.apache.org/dyn/closer.cgi/hive/

tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /opt   # 解压到/opt中
cd /opt/
mv apache-hive-3.1.1-bin hive       # 将文件夹名改为hive
chown -R hadoop:hadoop hive            # 修改文件归属

2、配置环境变量
修改 /etc/profile 文件
vi /etc/profile

export HIVE_HOME=/opt/hive
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_HOME=/opt/hadoop/hadoop-2.9.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

最后执行命令 source /etc/profile 使其修改生效。

3、修改/opt/hive/conf下的hive-site.xml
将hive-default.xml.template重命名为hive-default.xml;
新建一个文件touch hive-site.xml,并在hive-site.xml中粘贴如下配置信息:

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://192.168.1.99:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>###</value>  
    <description>username to use against metastore database</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>###</value>
    <description>password to use against metastore database</description>
  </property>
</configuration>

4、启动hive
启动hive之前,请先启动hadoop集群。
start-all.sh
输入 hive 即可使用hive
将mysql设置为hive的元数据库,执行

schematool -dbType mysql -initSchema

5、hiveserver2配置启动

  • HiveServer2支持多种用户安全认证方式:NONE,NOSASL, KERBEROS, LDAP, PAM ,CUSTOM。目前还没有完全搞清楚怎么配置,就先使用NONE。
    编辑Hadoop的 core-site.xml文件,在配置文件末尾加上以下内容:
<property>
    <name>hadoop.proxyuser.hadoopuser.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.hadoopuser.groups</name>
    <value>*</value>
  </property>

重启Hadoop

  • 启动hiveserver2
    运行 /opt/hive/bin/hiveserver2
  • 使用beeline连接hiveserver2
    /opt/hive/bin/beeline
    !connect jdbc:hive2://192.168.1.103:10000/default;-uhive
  • 也可以通过浏览器 访问http:// 10.0.0.26:10002/ 查看详情

6、 hive异常分析

  • schematool -dbType mysql -initSchema初始化时 报错:
    Exception in thread "main" java.lang.RuntimeException: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8
    at [row,col,system-id]: [3231,96,"file:/opt/hive/conf/hive-site.xml"]

解决方法:
opt/hive/conf/hive-site.xml文件的第3231行有特殊字符,删掉即可
对应<name>hive.txn.xlock.iow<name>

删除&#8;特殊字符
  • SLF4J: Class path contains multiple SLF4J bindings.
    解决方法:删掉与添加的配置文件重名的配置信息

7、hive启动时报错

  • Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-3.1.1.jar!/hive-log4j2.properties Async: true
    Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: {system:java.io.tmpdir%7D/%7Bsystem:user.name%7D
    解决方法:
    配置没有修改hive的临时目录
    修改hive-site.xml文件的${system:java.io.tmpdir},一共两处,改为本地的存在目录
    vim /opt/hive/conf/hive-site.xml

日常运维出现的问题及解决,持续更新中...

1、使用hive的beeline连接报错hadoop is not allowed to impersonate hadoop (state=08S01,code=0)
网上找了一圈,解决方法都是
在hadoop的core-site.xml中添加如下内容

<property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
</property>

我检查了原先有这个配置,搞了半天没有找到解决方法。
只能重启看看效果。

2、运行stop-all.sh 结果出现no namenode to stop
可hadoop服务正常没有关闭。
原来hadoop默认配置是将datanode,namenode,jobtracker,tasktracker,secondarynamenode的pid存放在/tmp目录下,但linux会定期清理/tmp目录,pid信息丢失导致
解决办法:
修改hadoop/etc/hadoop/hadoop-env.sh文件中的HADOOP_PID_DIR

export HADOOP_PID_DIR=/opt/hadoop/pids

修改hadoop/etc/hadoop/yarn-env.sh文件中的YARN_PID_DIR

export YARN_PID_DIR=/opt/hadoop/pids

注意:pids目录要授予读写权限:chmod 775 -R /opt/hadoop/pids

重启完hadoop后,第一个连接报错的问题居然好了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容