1. hadoop简介:
1.1. hadoop背景与简介
- 开源
- 运行在linux上且用JAVA编写,有良好的跨平台特性。
- 应用可以用多种语言编写。
- 可运行在低端机上,构成集群。
1.2. Hadoop应用现状
1.3. YARN
资源调度,可以用在hadoop,storm,spark上面。
1.4. 怎么选择合适版本?
学生选一个难装的版本,完全是因为我们穷啊,哈哈哈哈哈哈。心酸,我想用CDH....
2. Hadoop项目结构
3. 安装
这个课程用的是hadoop开源版,我觉得可以用个人版CDH搭起来,会比较简单。
4. Hadoop集群的部署与使用
分布式节点: 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的
主节点: NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。
集群规模要多大
a. 考虑每周存储A,并且有三个HDFS副本,需要额外的3A存储,允许一些中间文件和日志(假定30%A)的空间。--》算两年需要多少机器。
b. 对于一个小的集群,名称节点(NameNode)和JobTracker运行在单个节点上,通常是可以接受的。
c. 第二名称节点(SecondaryNameNode)会和名称节点可以运行在相同的机器上,但是,由于第二名称节点和名称节点几乎具有相同的主存需求,因此,二者最好运行在不同节点上集群网络拓扑
把hadoop看成服务器,跟路由网络差不多。也需要交换机和路由器进行联通。
一些内心OS:
林子雨老师:你只要在hadoop上敲一些傻瓜指令就可以运行hadoop
我:???????[真的吗.jpg]
林子雨老师:hadoop平台可以做很多东西,但我们不讲,这只是入门级课程
我:额.......求高级篇!
2018.6.9