hadoop搭建和使用

1.搭建

1.集群

jdk安装
```
配置JDK环境变量
```
在局域网中关闭防火墙
```
service iptables stop
```

设置主机映射

1. 打开配置文件
    vim /etc/hosts
2. 内容
    192.168.80.111 server1
    192.168.80.112 server2
    192.168.80.110 server3

配置SSH免密登录

1. 生成私钥
    ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
2. 将私钥添加公钥中
    cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3. 将多台的 authorized_keys 内容合并一起，之后放入各自的authorized_keys

安装hadoop

上传hadoop
```
放入指定文件夹
/download
```
在 / 目录下创建一个hadoopServer的文件夹
```
mkdir /hadoopServer
```

解压hadoop的压缩包，之后把解压的hadoop移入到 /hadoopServer

进入
    cd /download
解压
    tar -zxvf hadoop.tar
移动
    mv hadoop /hadoopServer

配置环境变量

1. 打开配置文件
    vim /etc/profile
2. 内容
    export HADOOP_HOME=/hadoopServer/hadoop
    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

在 hadoopServer/hadoop中创建文件夹（数据节点）

    cd /hadoopServer/hadoop
1. 创建临时目录
    mkdir tmp
2. 创建服务节点的文件夹
    mkdir -p /hdfs/namenode
3. 创建数据节点存放的位置
    mkdir -p /hdfs/data

在 /hadoopServer/hadoop/hadoop-2.7.1/etc/hadoop 拷贝
```
cp mapred-site.xml.template  mapred-site.xml
```

在 /hadoopServer/hadoop/hadoop-2.7.1/etc/hadoop 修改配置

1. hadoop-env.sh
     ## 1. 修改java_home
     export JAVA_HOME=/usr/local/java
    
2. yarn-env.sh
    ## 修改 java_home
    # some Java parameters
    export JAVA_HOME=/usr/local/java
    
3. core-site.xml
    <configuration>

      <!-- 配置主机-->
      <property> 
        <name>fs.default.name</name> 
        <value>hdfs://192.168.80.111:9000</value> 
        <description>HDFS的URI</description> 
      </property> 
      
      <!-- 配置临时目录-->
      <property> 
        <name>hadoop.tmp.dir</name> 
        <value>/hadoopServer/hadoop-2.7.1/tmp</value> 
        <description>tmmp dir</description> 
      </property> 
      
    </configuration>
        
4. hdfs-site.xml
        <configuration>
        
          <!-- 配置元数据-->
          <property> 
            <name>dfs.name.dir</name> 
            <value>/hadoopServer/hadoop-2.7.1/hdfs/namenode</value> 
            <description>namenode</description> 
          </property> 
          
          <!-- 物理存储位置-->
          <property> 
            <name>dfs.data.dir</name> 
            <value>/hadoopServer/hadoop-2.7.1/hdfs/data</value> 
            <description>datanode</description> 
          </property> 
          
          <!-- 副本个数，要小于等于实际的Hadoop服务的个数-->
          <property> 
            <name>dfs.replication</name> 
            <value>3</value> 
            <description>dis number</description> 
          </property> 
          
        </configuration>
        
5. mapred-site.xml
        <configuration>
        
          <!-- 启动yarn -->    
          <property> 
            <name>mapreduce.framework.name</name> 
            <value>yarn</value> 
          </property> 
          
        </configuration>
        
6. yarn-site.xml
    <configuration>
    <!-- Site specific YARN configuration properties -->
    
      <!-- 启动shuffle job-->
      <property> 
        <name>yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value> 
        <description>shuffle job</description> 
      </property> 
      
      <!-- yarn的web监视端口-->
      <property> 
        <name>yarn.resourcemanager.webapp.address</name> 
        <value>192.168.80.111:8099</value> 
        <description>year web</description> 
      </property> 
      
    </configuration>
    
7. slaves
    ## 配置连接节点
    192.168.80.111
    192.168.80.112
    192.168.80.110

远程复制（其他节点）

1. 格式
  scp -r 目录 root@[hostName]:[目标地址]
2. 实操
  scp -r /hadoopServer root@server1:/hadoopServer

进行格式化

1. 进入hadoop的bin目录
  cd /hadoopServer/hadoop/bin
2. 执行格式化（只用在主服务上使用一次就可以）
  ./hdfs namenode -format

2.伪集群

修改配置(在安装之后，变为伪集群)

1. 修改配置 
    1. hdfs-site.xml 
        <!--为单台节点-->
        <property>
            <name>dfs.replication</name>
            <value>1</value>
            <description> dis number </description>
        </property>
    2. slaves
        localhost
2. 删除旧版信息(如果之前安装过，就要进行此步骤)
    cd /tmp/
    rm -rf *
    cd /hadoopServer/hadoop-2.7.1/tmp/
    rm -rf *
    cd ../logs/
    rm -rf *
    cd ../hdfs/namenode/
    rm -rf * 
    cd ../datanode/
    rm -rf *
3. 重新格式化
     ./hdfs namenode -format
4. 就可以启动

2.使用

1. 启动
    start-all.sh
2. 停止
    stop-all.sh

3. 注意

1. 格式化

不要多次格式化，会造成事务ID不一致

2. 管理后台

http://192.168.63.110:50070/
端口 50070

2. 出现安装失败

删除旧版信息

cd /tmp
rm -rf *
cd /hadoopServer/hadoop-2.7.1/tmp
rm -rf *
cd ../logs/
rm -rf *
cd ../hdfs/namenode
rm -rf *
cd ../datanode/
rm -rf *

格式化

1. 进入bin目录
    cd /hadoopServer/hadoop-2.7.1/bin
2. 格式化
    ./hdfs namenode -format