Hadoop权威指南第一章

Nutch->Hadoop(yahoo)

第一章 初识Hadoop

分治,多机器并行I/O数据

问题1:硬件故障数据丢失
解决办法:复制replication

问题2:数据的结合使用,可能需要所有硬盘中的数据共同分析,保证其正确性很困难。
解决方法:MapReduce编程模型

Hadoop提供了一个 开源的 可靠的 可扩展的 存储和分析平台

查询所有数据,每个查询需要处理整个数据集或至少一个书局街的绝大部分。
通过整合超大量数据,可分析得到以往没有注意到的一些对数据的理解。

批处理系统,一条查询语句就可能需要几分钟或更多时间。因此MapReduce更适合没有用户在现场等待查询结果的离线使用场景。

?????那么推荐系统都是怎么做到的?

HBase
在线访问组件
用HDFS做底层存储的键值存储模型。
不仅提供对当行的在线IO访问,还提供对数据块IO的批操作。

批处理(Batch),也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。批处理文件的扩展名为bat 。DOS批处理则是基于DOS命令的,用来自动地批量地执行DOS命令以实现特定操作的脚本

Yarn
集群资源管理系统

Slor
搜索平台
能在Hadoop集群上运行

寻址时间提升远不如传输速率的提升
寻址是导致硬盘操作延迟的主要原因.传输速率取决于硬盘的带宽.
批处理时读取大浪数据集会消耗更长时间(相较于流数据读取模式,流数据读取模式主要取决于传输速率).

MapReduce 适合解决需要以批处理方式分析整个数据集的问题.适合一次写入多次读取数据的应用.

相较于其他系统的优势

1. 关系型数据库和Hadoop

区别是模糊的.

1.1 一个区别是: 他们操作的数据集的结构化程度.
结构化数据: 具有既定格式的实体化数据. 例如XML文档.
半结构化数据:比较松散,有格式但是常被忽略。例如电子表格。
非结构化数据:没有什么内部结构。例如:纯文本或者图像数据。

Hadoop对结构化或者半结构化数据非常有效,他在处理数据时才对数据进行解释。

1.2 关系型数据往往是规范的
Hadoop适合分析非规范化数据
Web服务器日志是非规范化数据(同一客户端全名出现多次)

2. 网格计算

高性能计算(High Performance Computing)将作业分散到集群的各台机器上,适用于计算密集型的作业,如果节点需要访问的数据量非常庞大,许多节点会因为带宽的瓶颈问题不得不闲下来等数据。
网格计算(Grid Computing)

Hadoop在计算机欸单上储存数据,实现数据的本地快速访问。
数据本地化是Hadoop数据处理的核心。

移动数据在一台或多台机器上部署程序,然后把数据获通过接口抓取到程序里进行分析
移动计算把程序自动分发到各hadoop结点上进行计算,然后通过一定机制把结果进行汇总最后返回出来

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,930评论 2 89
  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 2,743评论 0 51
  • 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力...
    x_no_one阅读 1,929评论 0 3
  • 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储...
    Alukar阅读 2,405评论 0 32
  • 2018年6月30日 星期六 22:00 今天是个特殊的日子: 周末, 月末, 季末, 半年末, 2018...
    燕忆飞阅读 324评论 0 2