hadoop 命令操作hdfs 目录权限管理

与其通过规章制度让大家遵守某项规定，时而还要担惊受怕总有那么一小嘬人冒天下之大不韪以身试法践踏规定，一劳永逸解决信任问题的终极办法看似有些独裁专制，对于有特立独行思想的刺头，最好的根治手段就是阉割。现实中用囚笼囚禁犯人，在计算机系统中则是通过权限管理限制每一个人的操作范围。

image.png

由于公司的大数据平台搭建的比较简陋，还要让之前根本没有接触过 hadoop平台的开发算法人员使用，他们的错误操作经常给你带来意外的惊喜和感动的泪水，我心里有十万个 MMP。。。

所以刚开始就想干脆像初中小学那样写个班规似的使用规范吧，但是规范的约束力是有限的，需要大家相互信任，但是总有人会错误操作的风险，怎么办怎么办，只能通过强制的方法解决这个局面。
好汉大部分都是被逼上梁山的，平台的演进大多也是根据眼前出现的问题不断精益求精的。所以搭建权限管理势在必行。

先简单介绍一下思想，其实有两种方式，
一种是配置 ugi 的xml ，
一种是直接在 linux 创建相应的用户和组，然后把 hdfs 的某一文件夹的操作权限赋予该用户和组，
第一种侵入性小，配置简单，第二种则简单粗暴好操作但如果有成百上千的hadoop操作用户则是一个不简单的力气活，最好有一个脚本可以自动化操作这些。为了尽快见效，我选择了第二种,而且还要搭配着与我们的hadoop 任务提交机器使用。

我们数据算法小组现在一共五个人，人少就给每个人设置了一个账号权限，还另外设置了一个 dev 及guests 的账号，方便其他组和新加入的小伙伴临时使用
下面开始操作了
1.在 hadoop master 的节点创建这些账户，为了这些账户好管理，也要创建一个组，组可以先用户创建也可以在用户之后创建

useradd medev && echo da@opo#8N5 | passwd --stdin medev
echo "medev ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
groupadd datadev
usermod -a -G datadev medev
这些命令需要在 root 用户下使用

2.登录到每个用户的shell 中，然后把原来 java hadoop path 的环境变量粘贴复制到新创建的用户的 ~/.bashrc，保存并退出，然后
vi ~/.bashrc

export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export SCALA_HOME=/usr/local/scala
export SQOOP_HOME=/usr/local/sqoop
export PATH=$SQOOP_HOME/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/root/bin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/usr/local/scala/bin

source ~/.bashrc
【注意，第二步我们只给 dev 和guests 两个用户这样在 Master设置了，其他个人账号没有设置，主要是防止这些同事无意登录到 Master 节点错误操作，但是所有新创建的用户，我们在任务提交机器都这样配置了】

3.使用hadoop fs -chown user:group /dirpath ，为 hdfs 上的用户分配目录操作权限，大前提是这样的原来的日志流目录还是 hadoop 管理员 hadoop 和组 supergroup 的，在 hdfs根目录下创建一个总的 /outputs目录，dev 用户可以操控这个目录及子目录，然后其他的个人账号，只可以操控在 /outputs/下的各自的子目录集，比如 muller 只可以操作
/outputs/mulleroutput，整个 /outputs目录都属于该用户组

hadoop fs -chown -R medev:datadev /Outputs/devoutput

这个操作需要在 hadoop管理员的身份执行

然后可以在 Master 使用 hadoop fs -put -get -mkdir -rm -r 命令来测试，果然都可以实现目录权限的管理,不属于你的只有查看和mapreduce的权限，不能创建不能删除不能下载，只能在自己的目录下肆意妄为。
rm: Permission denied: user=meDev, access=WRITE, inode="/":hadoop:supergroup:drwxr-xr-x

put: Permission denied: user=medev, access=WRITE, inode="/xial":hadoop:supergroup:drwxr-xr-x

mkdir: Permission denied: user=medev, access=WRITE, inode="/":hadoop:supergroup:drwxr-xr-x

get: /usr/local/hadoop/part-00000.deflate.COPYING (Permission denied)
5.然后在 hadoop 任务提交机器继续创建同名的用户和配置环境变量即可，然后测试完全没有压力

但是我们还是太天真了，我们做好了 hdfs 目录权限管理，却发现无法进行 mapreduce了，在运行 hadoop 自带的 wordcount ，也报权限不足，细细的看，发现问题的严重性，独自的用户因为不属于 supergroup 组，无法rwx hadoop的根目录的 /tmp目录，此目录是放置 map 中间值得目录，难道你忘记了吗，hadoop 在进行 mapreduce时，会把中间结果保存在硬盘上，实际是hdfs的 /tmp目录中，如果操作用户没有权限操作 /tmp也是无法进行mapReduce的，
17/10/27 19:52:21 INFO client.RMProxy: Connecting to ResourceManager at hadoop-master/194.168.255.155:8032 org.apache.hadoop.security.AccessControlException: Permission denied: user=linkedmeGuests, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------
所以要把 /tmp 目录的权限设置为 777，单单 /tmp设置了还不可以，还要把其子目录都要配置为777的权限，切换到hadoop 管理员操作

hadoop fs -chmod -R 777 /tmp

然后再运行发现又失败了，发现对output的目录没有操作权限，
17/10/27 19:56:30 INFO mapreduce.Job: Job job_1508742787565_0140 running in uber mode : false
17/10/27 19:56:30 INFO mapreduce.Job: map 0% reduce 0%
17/10/27 19:56:30 INFO mapreduce.Job: Job job_1508742787565_0140 failed with state FAILED due to: Job setup failed : org.apache.hadoop.security.AccessControlException: Permission denied: user=meGuests, access=WRITE, inode="/Outputs/DannyOutputs":Danny:datadev:drwxr-xr-x

这个当然了，我们规定了每个账号用户的可以操作的output目录，其他别人的目录都不允许操作，所以只要把output 的目录设置成自己的output目录创建子目录才可以正常操作，结果运行成功了

另外的重点！！！
我们还要配置一下 hdfs 相关 output目录的存储大小上限，这样方便管理，不然有人的output太大，都不晓得竟然会超过源日志大小，这就尴尬了
》bin/hdfs dfs -put readme.txt /finance

》bin/hdfs dfs -du -s /finance
》3901 /finance

》bin/hdfs dfsadmin -setSpaceQuota 4000 /finance
设置/finance的大小上限为4000个字节

》bin/hdfs dfs -put readme1.txt /finance
由于已经超出4000个字节，则会报错
》bin/hdfs dfsadmin -clrSpaceQuota /finance 将配额清除掉
》bin/hdfs dfs -put readme1.txt /finance 这次上传就不会错了~

[apache-nutch-1.2.rar 大约248M]
bin/hdfs fsck /finance/apache-nutch-1.2.rar
参考 http://www.cnblogs.com/i80386/p/3580107.html

这样把这些用户账号分配并告知使用者，并告知禁止使用root 和管理者用户角色并不可使用他人账号，这样就可以愉快的进行 hdfs 的文件权限管理了，
尤其要注意，密码不要太简单，因外要外网登陆，不然被黑也是常事。

另外 hadoop的 acl 需要关注，未来也是需要配置的，
http://www.jianshu.com/p/2c8949340f6c
还要配置 hadoop的 ugi

hadoop 命令操作hdfs 目录权限 管理

推荐阅读更多精彩内容

hadoop 命令操作hdfs 目录权限管理