Hadoop权威指南第一章

Nutch->Hadoop(yahoo)

第一章 初识Hadoop

分治,多机器并行I/O数据

问题1:硬件故障数据丢失
解决办法:复制replication

问题2:数据的结合使用,可能需要所有硬盘中的数据共同分析,保证其正确性很困难。
解决方法:MapReduce编程模型

Hadoop提供了一个 开源的 可靠的 可扩展的 存储和分析平台

查询所有数据,每个查询需要处理整个数据集或至少一个书局街的绝大部分。
通过整合超大量数据,可分析得到以往没有注意到的一些对数据的理解。

批处理系统,一条查询语句就可能需要几分钟或更多时间。因此MapReduce更适合没有用户在现场等待查询结果的离线使用场景。

?????那么推荐系统都是怎么做到的?

HBase
在线访问组件
用HDFS做底层存储的键值存储模型。
不仅提供对当行的在线IO访问,还提供对数据块IO的批操作。

批处理(Batch),也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。批处理文件的扩展名为bat 。DOS批处理则是基于DOS命令的,用来自动地批量地执行DOS命令以实现特定操作的脚本

Yarn
集群资源管理系统

Slor
搜索平台
能在Hadoop集群上运行

寻址时间提升远不如传输速率的提升
寻址是导致硬盘操作延迟的主要原因.传输速率取决于硬盘的带宽.
批处理时读取大浪数据集会消耗更长时间(相较于流数据读取模式,流数据读取模式主要取决于传输速率).

MapReduce 适合解决需要以批处理方式分析整个数据集的问题.适合一次写入多次读取数据的应用.

相较于其他系统的优势

1. 关系型数据库和Hadoop

区别是模糊的.

1.1 一个区别是: 他们操作的数据集的结构化程度.
结构化数据: 具有既定格式的实体化数据. 例如XML文档.
半结构化数据:比较松散,有格式但是常被忽略。例如电子表格。
非结构化数据:没有什么内部结构。例如:纯文本或者图像数据。

Hadoop对结构化或者半结构化数据非常有效,他在处理数据时才对数据进行解释。

1.2 关系型数据往往是规范的
Hadoop适合分析非规范化数据
Web服务器日志是非规范化数据(同一客户端全名出现多次)

2. 网格计算

高性能计算(High Performance Computing)将作业分散到集群的各台机器上,适用于计算密集型的作业,如果节点需要访问的数据量非常庞大,许多节点会因为带宽的瓶颈问题不得不闲下来等数据。
网格计算(Grid Computing)

Hadoop在计算机欸单上储存数据,实现数据的本地快速访问。
数据本地化是Hadoop数据处理的核心。

移动数据在一台或多台机器上部署程序,然后把数据获通过接口抓取到程序里进行分析
移动计算把程序自动分发到各hadoop结点上进行计算,然后通过一定机制把结果进行汇总最后返回出来

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,167评论 2 89
  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 7,736评论 0 51
  • 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力...
    x_no_one阅读 5,885评论 0 3
  • 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储...
    Alukar阅读 6,974评论 0 32
  • 2018年6月30日 星期六 22:00 今天是个特殊的日子: 周末, 月末, 季末, 半年末, 2018...
    燕忆飞阅读 2,844评论 0 2

友情链接更多精彩内容