本教程适用于已经安装好hadoop,spark集群,需要利用的集群做简单的sql数据分析的用户。
终端显示快捷 ctrl+alt+t
# 启动hadoop后,查看Hadoop的网站
http://localhost:50070/dfshealth.html
#查看磁盘容量
df -l
#截图软件安装
sudo apt-get install shutter1
# 任务管理器
gnome-system-monitor
1.启动hadoop集群
start-all.sh
2. hdfs 操作
# hdfs 文件列表
hdfs dfs -ls /
hdfs dfs -ls /dbtac/test
2.1. 将本地文件传到hdfs
#上传命令结构
hdfs dfs -put 本地文件路径 hdfs上传文件路径
hdfs dfs -put /home/hadoop/test20.csv /dbtac/test/
3、hive操作
cd /usr/local/hive
3.# 启动hive
./bin/hive
4、spark操作
4.1 启动spark
start-master.sh
start-slaves.sh
4.2 master上的操作
#进入Scala语言交互式界面
spark-shell
hdfs上文件不存的报错情况
进入spark-sql
spark-sql
spark交互式界面启动方式
#单机启动
spark-shell
#集群启动
spark-shell --master spark://master:7077
#集群启动
spark-shell --master spark://master:7077 --master yarn
#集群启动spark-sql
spark-sql --master spark://master:7077 --driver-cores 8 --driver-java-options "-Dspark.driver.port=4050" --conf spark.sql.warehouse.dir = hdfs://master:9000/user/hive/warehouse --master yarn
输入scala代码
val textfile = sc.textFile("/dbtac/test/*.csv")
val textfile = sc.textFile("/user/hive/warehouse/dbtac.db/trajectory")
textfile.count()
text.first()
spark关闭命令
stop-master.sh
stop-slaves.sh
hadoop关闭
stop-hdfs.sh
stop-yarn.sh