使用环境:
1、centos(6.4)
2、hadoop版本对比及选择
生产较多的CDH版本(CDH5.7.0)
下载地址:课程整套CDH相关的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/
cdh-5.7.0 生产或者测试环境选择对应CDH版本时,一定要采用尾号是一样的版本
为什么很多公司选择Hadoop作为大数据平台的解决方案?
1)源码开源
2)社区活跃、参与者很多 Spark
3)涉及到分布式存储和计算的方方面面:
Flume进行数据采集
Spark/MR/Hive等进行数据处理
HDFS/HBase进行数据存储
4) 已得到企业界的验证
3、开发工具对比及选
IDEA(主要选选)
Eclipse
4、环境使用方式
完整版:链接: 链接:https://pan.baidu.com/s/1bqXFPIv 密码:s9xz
下载下来解压,导入到vmfusion 启动
5、hadoop启动-验证
/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin
1)启动hdfs
hadoop fs -ls
2)启动yarn
./start-yarn.sh
验证
6、hive启动
/home/hadoop/app/hive-1.1.0-cdh5.7.0/bin
./hive
7、spark启动
/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/bin
./spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar