一些关于Ubuntu和hadoop的学习日志

2017.10.19~20

坐在床下被蚊子咬死了，靠着电脑屏幕微弱的灯光打死了一只飞到跟前的蚊子

毛不易唱歌好好听啊。

分出去300G装ubuntu，结果搁在这里装了后就很久没用过了，最近因为实习原因重新开始用，万事开头难。

记录一下这两天学的骚操作：

更新apt：sudo apt-get update

sudo apt-get autoclean 清理旧版本的软件缓存 autoremove删除系统中孤立软件（没有依赖关系的）

安装搜狗输入法：需要预先安装一些依赖软件：sudo apt install libopencc1 fcitx-libs fcitx-libs-qt fonts-droid-fallback,然后去官网下载搜狗拼音for linux，安装过程中如果还报错就试试sudo apt-get install -f 修复依赖关系。

还有一个蛋疼的地方，我相信很多人和我一样，从Windows切到ubunutu的时候很不习惯，终端那个光标特么的也太粗了。解决办法如下：打开终端，长按alt，点击exit，点击配置文件首选项（就是最后一个），然后可以看到“改变光标形状”

自带的下载器真鸡儿慢啊，怀念迅雷，这是迅雷 for ubuntu：

http://blog.csdn.net/c2682736/article/details/71773806

学习hadoop：老大推荐的入门教程：http://www.powerxing.com/install-hadoop/

关于其中几点进行简要说明，旨在看到此文的小可爱们少走弯路。

1.为什么要创建一个新的hadoop用户：因为root权限太大，这主要考虑到安全因素，配置的时候可能因为误操作导致灾难性后果.哦对了，创建新用户后，要重装jdk(可能是因为我菜不会弄。。)

2.hadoop 2.4.7对应jdk1.8

3.文中提到的mds文件在这里：http://archive.apache.org/dist/hadoop/core/stable/

4.后面改配置文件的时候用到的gedit命令，没有装gedit的话，改成vim一样的。

5.需要从伪分布式模式切换回非分布式模式，直接删除 core-site.xml 中的配置项即可。

6.开启NameNode和DataNode守护进程：在/usr/lcoal/hadoop下，输入命令：./sbin/start-dfs/sh 然后输入命令jps来判断是否启动成功，相应的：如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试。

7.删除HDFS中原有的所有数据：rm -r ./tmp 没事不要这么玩！！！

8.成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。grep 例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录

9.重点！！！：

运行hadoop程序时候，为了防止覆盖结果，程序指定的输出目录（如 output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。在实际开发应用程序时，可考虑在程序中加上如下代码，能在每次运行时自动删除输出目录，避免繁琐的命令行操作：

Configuration conf = new Configuration();

Job job = new Job(conf);

//删除输出目录

Path outputPath = new Path(args[1]);

outpurPath.getFileSystem(conf).delete(outputPath,true);

10.重点！！！：

不启动 YARN 需重命名 mapred-site.xml：

如果不想启动 YARN，务必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用时改回来就行。否则在该配置文件存在，而未开启 YARN 的情况下，运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误，这也是为何该配置文件初始文件名为 mapred-site.xml.template。

11.那个教程里面，如果安装的是hadoop2.7.4以及以后的版本，修改yarn-site.xml的时候，务必修改成：

yarn.nodemanager.resource.cpu-vcores

yarn.nodemanager.resource.memory-mb

8192

一些关于Ubuntu和hadoop的学习日志

推荐阅读更多精彩内容