大数据基础之Hadoop和Spark

大数据基础

第一节:什么是大数据,本质?
    (1)数据的存储:分布式文件系统(分布式存储)    
    (2)数据的计算:分布式计算

第二节:JAVA和大数据是什么关系?
    1、HADOOP:基于JAVA语言开发
    2、SPARK: 基于SCALA语言,SCALA基于JAVA语言

第三节:学习大数据需要的基础和路线
    1、学习大数据需要的基础:JAVA基础(JAVASE)---> 类、继承、I/O、反射、泛型*****
                             LINUX基础(LINUX的操作)  ---> 创建文件、目录、VI编辑器***
                             
    2、学习路线:
        (1)JAVA基础和LINUX基础
        (2)HADOOP的学习:体系结构、原理、编程
                (*)第一阶段:HDFS、MAPREDUCE、HBASE(NOSQL数据库)
                (*)第二阶段:数据分析引擎 ---> HIVE、PIG
                               数据采集引擎 ---> SQOOP、FLUME
                (*)第三阶段:HUE:WEB管理工具
                               ZOOKEEPER:实现HADOOP的HA
                               OOZIE:    工作流引擎
        (3)SPARK的学习
                (*)第一个阶段:SCALA编程语言
                (*)第二个阶段:SPARK CORE-----> 基于内存,数据的计算
                (*)第三个阶段:SPARK SQL -----> 类似ORACLE中的SQL语句
                (*)第四个阶段:SPARK STREAMING ---> 进行实时计算(流式计算):比如:自来水厂
                
        (4)APACHE STORM:类似SPARK STREAMING ---> 进行实时计算(流式计算):比如:自来水厂
                (*)NOSQL:REDIS基于内存的数据库

Hadoop背景起源一 HDFS

一、什么是大数据,本质?
    (1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System
    (2)数据的计算:分布式计算
    
二、如何解决大数据的存储?----> 分布式文件系统(HDFS,来源于GFS)
    举例:网盘
    (1) GFS: 没有硬盘的,数据只能存在内存中
    (2) Hadoop的安装模式
        (*)本地模式  :1台
        (*)伪分布模式:1台
        (*)全分布模式:3台
HDFS存储介绍

Hadoop背景起源二 MapReduce

一、如何解决大数据的计算?分布式计算
    (1)什么是PageRank(MapReduce的问题的来源)
        (*) 搜索排名
    
    (2)MapReduce(Java语言实现)基础编程模型: 把一个大任务拆分成小任务,再进行汇总
        (*) 更简单一点例子
MapReduce模型

Hadoop背景起源三 BigTable

第一节:关系型数据库(Oracle、MySQL、SQL Server)的特点
1、什么是关系型数据库?基于关系模型(基于二维表)所提出的一种数据库
2、ER(Entity-Relationalship)模型:通过增加外键来减少数据的冗余
3、举例:学生-系

第二节:什么是BigTable?: 把所有的数据保存到一张表中,采用冗余 ---> 好处:提高效率
1、因为有了bigtable的思想:NoSQL:HBase数据库
2、HBase基于Hadoop的HDFS的
3、描述HBase的表结构
关系型数据库描述
HBase描述

Hadoop安装

准备实验的环境:
1、安装Linux、JDK
2、配置主机名、免密码登录
3、约定:安装目录:/root/training

安装:
1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/
2、设置环境变量: vi ~/.bash_profile
        HADOOP_HOME=/root/training/hadoop-2.4.1
        export HADOOP_HOME

        PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
        export PATH
        
    生效环境变量: source ~/.bash_profile

第一节:Hadoop的目录结构

第二节:Hadoop的本地模式
    1、特点:不具备HDFS,只能测试MapReduce程序
    2、修改hadoop-env.sh
    
       修改第27行:export JAVA_HOME=/root/training/jdk1.7.0_75
       
    3、演示Demo: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar
        命令:hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /root/data/input/data.txt  /root/data/output/wc
        日志:17/08/04 23:28:38 INFO mapreduce.Job:  map 100% reduce 100%
    
        注意:MR有一个默认的排序规则

第三节:Hadoop的伪分布模式
    1、特点:具备Hadoop的所有功能,在单机上模拟一个分布式的环境
             (1)HDFS:主:NameNode,数据节点:DataNode
             (2)Yarn:容器,运行MapReduce程序
                        主节点:ResourceManager
                        从节点:NodeManager
                        
    2、步骤:
    (1)hdfs-site.xml
        <!--配置HDFS的冗余度-->
        <property>
          <name>dfs.replication</name>
          <value>1</value>
        </property>

        <!--配置是否检查权限-->
        <property>
          <name>dfs.permissions</name>
          <value>false</value>
        </property> 

    (2)core-site.xml
        <!--配置HDFS的NameNode-->
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://192.168.88.11:9000</value>
        </property>

        <!--配置DataNode保存数据的位置-->
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/root/training/hadoop-2.4.1/tmp</value>
        </property>     
        
        
    (3) mapred-site.xml
        <!--配置MR运行的框架-->
        <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
        </property>     
        
    (4) yarn-site.xml
        <!--配置ResourceManager的地址-->
        <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>192.168.88.11</value>
        </property>

        <!--配置NodeManager执行任务的方式-->
        <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
        </property>     
        
    (5) 格式化NameNode
        hdfs namenode -format
        日志:Storage directory /root/training/hadoop-2.4.1/tmp/dfs/name has been successfully formatted.
        
        
    (6) 启动:start-all.sh
               (*) HDFS: 存储数据
               (*) Yarn:执行计算
               
    (7) 访问:(*)命令行
              (*)Java API
              (*)Web Console:
                    HDFS:http://192.168.88.11:50070
                    Yarn:http://192.168.88.11:8088
本地模式配置
伪分布模式配置
Hadoop的目录结构.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容