大数据学习记录hadoop(1)

一、数据是什么

    指无法在一定时间内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新型处理模式才能具有更强的决策力、发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储和海量数据的分析计算问题

特点:大量、高速、多样、低价值密度


二、Hadoop框架讨论大数据生态

2.1什么是hadoop

1) Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。

2) 主要解决:海量数据存储和海量数据的分析计算问题

3) 广义hadoop指hadoop生态圈

2.2hadoop的发行版

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。(开源版)

Cloudera在大型互联网企业中用的较多。(一键搭建)

Hortonworks文档较好。

2.3hadoop优势

1)高可靠性:hadoop底层维护多个数据副本。

2)高扩展性:在集群上分配任务数据,方便扩展更多节点。

3)高效性性:在MapReduce的思想下,hadoop是平行工作的,以加快任务处理的速度。

4)高容错性:能够将出错的任务重新分配

2.4hadoop的组成

1)hadoop1.x

Mapreduce(计算加资源调度)

Hdfs(数据存储)

Common(辅助工具)

2)Hadoop2.x

MapReduce(计算)

Yarn(资源调度)

HDFS(数据存储)

Common(辅助工具)

2.5hdfs架构

1)组成

Namenode:存储文件的元数据,以及每个文件的块列表和块所在的DataNode等

Datanode:在本地文件系统存储文件的块数据以及块数据的校验。

Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间记录hdfs元数据的快照。


2.6yarn架构

(1) ResourceManager(RM)(一个集群只有一个)

1. 处理客户端的资源请求

2. 监控nodemanager

3.启动或监控

4. 资源的分配与调度

(2) NodeManager(NM)

1. 管理单个节点上的资源

2. 处理来自ResourceManager的命令

3. 处理来自ApplicationManager的命令

(3) ApplicationManager(AM)

1. 负责数据的切分

2. 为应用程序申请资源并分配给内部的任务

3. 任务的监控与容错

(4) Container

Container是yarn中资源的抽象,它封装了某个节点上的多维度资源。



Yarn架构

2.7MapReduce框架概述

MapReduce分为两个阶段:Map和Reduce

(1) Map:并行处理输入数据

(2) Reduce:对Map结果进行汇总

2.8大数据生态系统


图中涉及的技术名词解释如下:

1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2)Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

(1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

(2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

(3)支持通过Kafka服务器和消费机集群来分区消息。

(4)支持Hadoop并行数据加载。

4)Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。

5)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

6)Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。

7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

10)R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

11)Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。

12)ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。




三、hadoop集群配置

3.1关闭防火墙

启动:systemctl start firewalld

关闭:systemctl stop firewalld

查看状态:systemctl status firewalld

永久禁用:systemctl disable firewalld

永久启用:systemctl enable firewalld

3.2配置hosts

vim /etc/hosts

ip主机名

.......

3.3免密登录

ssh-keygen -t rsa

ssh-copy-id hadoop01

#注意各个机器都要免密

3.4时间同步

时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。

1. 时间服务器配置(root用户)

(1)检查ntp是否安装

  rpm -qa|grep ntp

(2)查看ntp状态

  service ntpd status

(3)如果是开启状态则关闭

  service ntpd stop

(4)修改配置vim /etc/ntp.conf

以下四行代码注释掉

server 0.centos.pool.ntp.org iburst

server 1.centos.pool.ntp.org iburst

server 2.centos.pool.ntp.org iburst

server 3.centos.pool.ntp.org iburst


   添加以下内容

server 127.127.1.0

fudge 127.127.1.0 stratum 10


(当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步)

(5)修改/etc/sysconfig/ntpd文件

增加内容如下(让硬件时间与系统时间一起同步)

SYNC_HWCLOCK=yes

(6)重新启动ntpd服务,开机自启

service ntpd start


chkconfig ntpd on

2. 其他机器配置

(1)在其他机器配置10分钟与时间服务器同步一次

 crontab -e

编写定时任务如下:

*/10 * * * * /usr/sbin/ntpdate hadoop102

3.5创建用户

1. 创建hadoop用户

useradd hadoop

passwd hadoop


2.设置hadoop用户sudo免密权限,执行visudo命令,添加以下内容

 hadoop    ALL=(ALL)       NOPASSWD:ALL

保存时wq!强制保存

3.6安装Java和Hadoop,并配置环境变量,并分发到集群其他机器

3.7hadoop的配置

1. 配置hadoop-env.sh,yarn-env.sh,mapred-env.sh文件

添加JAVA_HOME

在每个文件第二行添加export JAVA_HOME=

2.配置Core-site.xml

    <property>

            <name>fs.defaultFS</name>

            <value>hdfs://hadoop01:9000</value>

        </property>

        <property>

            <name>hadoop.tmp.dir</name>

            <value>/opt/module/hadoop-2.7.2/data/tmp</value>

        </property>

3. 配置hdfs-site.xml

       <property>

            <name>dfs.replication</name>

            <value>3</value>

        </property>

      <property>

              <name>dfs.namenode.secondary.http-address</name>

              <value>hadoop03:50090</value>

        </property>

4.配置yarn-site.xml

      <!-- Site specific YARN configuration properties -->

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

      <property>

            <name>yarn.resourcemanager.hostname</name>

            <value>hadoop02</value>

        </property>


        <property>

            <name>yarn.log-aggregation-enable</name>

            <value>true</value>

        </property>

       <property>

            <name>yarn.log-aggregation.retain-seconds</name>

            <value>604800</value>

        </property>

5. 配置mapred-site.xml

   <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>


    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>hadoop03:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>hadoop03:19888</value>

</property>


启动历史服务器:mr-jobhistory-daemon.sh start historyserver

6. 配置Slaves指定datanode

    hadoop01

    hadoop02

    hadoop03

7.分发配置文件到其他机器

  scp -r

8. 格式化Namenode在hadoop01

hdfs namenode -format

3.8hadoop集群的启动


1.启动hdfs

start-dfs.sh

2. 在配置了Resourcemanager机器上执行

start-yarn.sh

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350