Hadoop命令

进程命令

对hadoop集群的操作

start-dfs.sh stop-dfs.sh 打开和关闭dfs
start-yarn.sh stop-yarn.sh 打开和关闭yarn

hadoop单进程操作

旧版本命令
hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode
yarn-daemon.sh start/stop resourcemanager/nodemanager
mr-jobhistory-daemon.sh start/stop historyserver

注:修改hadoop-daemon.sh和yarn-daemon.sh的启动文件,可以修改pid和log的存储位置。



新版本命令
hdfs --daemon start/stop namenode/datanode/secondarynamenode
yarn --daemon start/stop nodemanger/resourcemanager
mapred --daemon start/stop historyserver


基础命令

hadoop fs -help rm 输出rm指令的详细信息
hadoop fs -usage rm 输出rm的标准格式
hadoop fs -find / -name tmp 查找tmp文件

hadoop fs -setrep 10 /input.txt 设置HDFS中文件的replication(副本)数量(setrep指令记录在NameNode中,实际副本数还是看最大节点数。)
hadoop fs -checksum /a/b/c/xsync 每次写入读出都会自动进行一次校验判断文件的完整性;checksum是手动判断文件的完整型命令,如果和crc文件比对不同,则抛出错误。

选项名称 使用格式 含义
-ls -ls <路径> 查看指定路径的当前目录结构
-lsr -lsr <路径> 递归查看指定路径的目录结构
-du -du <路径> 统计目录下个文件大小
-dus -dus <路径> 汇总统计目录下文件(夹)大小
-count -count [-q] <路径> 统计文件(夹)数量
-mv -mv <源路径> <目的路径> 移动
-cp -cp <源路径> <目的路径> 复制
-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹
-rmr -rmr [-skipTrash] <路径> 递归删除
-put -put <多个linux上的文件> <hdfs路径> 上传文件
-copyFromLocal -copyFromLocal <多个linux上的文件> <hdfs路径> 从本地复制
-moveFromLocal -moveFromLocal <多个linux上的文件> <hdfs路径> 从本地移动
-getmerge -getmerge <源路径> <linux路径> 合并到本地
-cat -cat <hdfs路径> 查看文件内容
-text -text <hdfs路径> 查看文件内容
-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 复制到本地
-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 移动到本地
-mkdir -mkdir <hdfs路径> 创建空白文件夹
-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量
-touchz -touchz <文件路径> 创建空白文件
-stat -stat [format] <路径> 显示文件统计信息
-tail -tail [-f] <文件> 查看文件尾部信息
-chmod -chmod [-R] <权限模式> [路径] 修改权限
-chown -chown [-R] 属主] 路径 修改属主
-chgrp -chgrp [-R] 属组名称 路径 修改属组
-help -help [命令选项] 帮助


管理命令

hadoop dfsadmin -report 查看各个datenode节点的状态
hadoop dfsadmin -safemode get 命令是用来查看当前hadoop安全模式的开关状态
hadoop dfsadmin -safemode enter 命令是打开安全模式
hadoop dfsadmin -safemode leave 命令是离开安全模式

hdfs dfsadmin -fetchImage /data 获取fsimage信息并存储到目标地址

hadoop checknative -a 查看hadoop支持的压缩格式


节点间数据均衡

开启数据均衡命令:
start-balancer.sh -threshold 10

对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。

停止数据均衡命令:
stop-balancer.sh

注意:于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,[所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。

磁盘间数据均衡

(1)生成均衡计划(我们只有一块磁盘,不会生成计划)
hdfs diskbalancer -plan hadoop103
(2)执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
(3)查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
(4)取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json


Hadoop中的umask

计算规则
Hadoop中umask的值使用的是十进制,与Linux中的umask值使用的是八进制是不同的。
但是计算规则是相同的,且默认文件夹权限为777,文件权限为666,umask为022,因此用户创建文件夹后权限为755,创建文件权限为644。
可以先通过八进制将需要的umask的值计算出来后,再转为十进制进行设置。

如希望让文件的属性为644,那么在linux中应该设置umask为022,而设置dfs.mask的值时,将其转为十进制就是0018。

修改umask
在配置文件中修改

    <property>
        <name>fs.permissions.umask-mode</name>
        <value>002</value>
    </property>


Hadoop中占用空间过大

通过命令hadoop fs -du -h /查看根目录下磁盘占用过大的文件。
第一列标示该目录下总文件大小
第二列标示该目录下所有文件在集群上的总存储大小和你的副本数相关,我的副本数是3 ,所以第二列的是第一列的三倍 (第二列内容=文件大小*副本数)。

[root@cos-bigdata-hadoop-01 hadoop]# hadoop fs -du -h /
668.5 G  2.0 T    /HBase
7.4 G    26.3 G   /origin_data
36.5 G   109.4 G  /spark
27.9 K   83.6 K   /system
68.0 M   203.9 M  /tez
657.4 G  1.9 T    /tmp
115.5 G  346.4 G  /user
209.5 G  630.7 G  /warehouse

最后发现 /tmp文件和/HBase/oldWALs文件占用过大,删除即可。删除时需要注意使用命令hdfs dfs -rm -r -skipTrash,因为hdfs有回收站机制,如果不添加-skipTrash,不会释放磁盘空间,而是在fs.trash.interval配置的时候后才会完全删除并释放磁盘空间。也可以使用hadoop fs -expunge命令,在后台启动程序慢慢删除过期的文件。

NOTE:

  1. /tmp目录: 主要用作mapreduce操作期间的临时存储.Mapreduce工件,中间数据等将保存在此目录下.mapreduce作业执行完成后,这些文件将自动清除.如果删除此临时文件,则会影响当前运行的mapreduce作业。临时文件由pig创建.临时文件删除最后发生.如果脚本执行失败或被杀死,Pig不会处理临时文件删除.然后你必须处理这种情况.您最好在脚本本身处理此临时文件清理活动。
  2. /HBase/oldWALs目录: 当/hbase/WALs中的HLog文件被持久化到存储文件中,且这些Hlog日志文件不再被需要时,就会被转移到{hbase.rootdir}/oldWALs目录下,该目录由HMaster上的定时任务负责定期清理。


数据迁移

集群间迁移
hadoop distcp hdfs://bigdata1:8020/data hdfs://bigdata2:8020/
集群迁移到本地
hadoop distcp file:///logs hdfs://172.16.218.29:8020/data/hadoop
本地迁移集群
hadoop distcp hdfs://172.16.218.29:8020/data/hadoop file:///logs

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容