大数据部署一
一、Hadoop分布署集群搭建(相关配置文件):
1、配置Jdk和Hadoop的环境变量。
2、配置hadoop-env.sh文件:
A:配置Hadoop的堆内存大小: export HADOOP_HEARPSIZE = 100
2、配置mapred-env.sh文件:
A:修改默认的JAVA_HOME
3、配置yarn-env.sh文件:
A:修改JAVA堆内存大小:JAVA_HEAP_MAX=-xMX300m
B:修改yarn堆内存大小:YARN_HEAPSIZE=100
4、配置core-site.xml文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/software/hadoop/data</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>14400</value>
</property>
</configuration>
5、配置yarn-size.xml文件:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check.enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemenager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.sheduler.minimum-allocation-mb</name>
<value>100</value>
</property>
<property>
<name>yarn.sheduler.maxmum-allocation-mb</name>
<value>20480</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>
<property>
<name>yarn.sheduler.minimum-allocation-vcores</name>
<value>1<value>
</property>
<property>
<name>yarn.sheduler.maxmum-allocation-vcores</name>
<value>32</value>
</property>
<property>
<name>yarn.resourcemanager.sheduler.class</name>
<value>org.apache.hadoop.yarn.server.recourcemanager.sheduler.fair.FairSheduler</value>
</property>
<property>
<name>yarn.sheduler.fair.preemption</name>
<value>true</value>
</property>
<property>
<name>yarn.scheduler.fair.preemption.cluster-utilization-treshold</name>
<value>0.8</value>
</property>
</configuration>
6、hdfs-size.xml文件配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50070</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false<value>
</property>
</configuration>
7、配置mapper-site.xml文件:
<configuration>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
8、将配置文件发到其他机器上。
9、格式化namdenode文件系统(只在第一次启动前执行)。
hadoop namenode -format
10、启动hadoop。
A:启动hdfs:start-dfs.sh。
B:启动yarn:start-yarn.sh。
11、jps查询启动进程情况。
二、Zookeeper分布式集群搭建
1、解压缩包。
2、配置zoo.cfg文件:
A:dataDir=XXXXX
B:dataLogDir=XXXX
server.1=slave1:2888:3888
server.2=slave:2888:3888
server.3=slave3:2888:3888
3、myId配置:
在dataDir目录下配置myId。
4、将配置文件发到其他机器。
5、配置Zookeeper环境变量
6、启动服务(每台机器都开启):
zkServer.sh start。
三、Hbase集群环境搭建:
1、解压包。
2、配置hbase-site.xml文件:
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:8020/hbase</value>
<property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorm</name>
<value>slave1,slave2,slave3</value>
</property>
<property>
<name>hbase.regionserver,restart.on.zk.expire</name>
<value>true</value>
</property>
<property>
<name>hbase.coprocessor.abortonerror</name>
<value>false</value>
</property>
</configuration>
3、配置regionServers
4、将配置文件发送到其他机器上。
5、配置backup-masters。
6、配置hbase环境变量。
7、启动hbase集群:
start-hbase.sh