数据产品经理术语_hadoop

1)是什么

① Hadoop是由Apache基金会所开发的分布式系统基础架构,封装了复杂的分布式底层细节,使开发人员低门槛地开发分布式程序,充分利用集群的威力进行高速运算和存储。

② Hadoop是一个针对于大数据的存取、计算、加工、分析,由多个工具构成的解决方案

③ 提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序,但是延迟大,响应缓慢,运维复杂

2)为解决什么问题

随着互联网数据量增多,数据产生速度增快,数据类型多样性提高,之前的集中式的数据处理系统显露出了很多问题。

① 原有系统存储容量有限,无法承载每日TB甚至PB级的数据量。

② 原有系统适合处理简单数据,对于音视频、图片等多种类型的文件支持一般。

③ 原有系统应对故障的能力弱。

④ 原有系统对机器要求高,构建成本高。

Hadoop构建了可以运行在多个廉价小型机的分布式系统架构,以低成本的方案解决了上述问题,从而得到了行业中大量的应用。

3)工作原理

① 示意图

Hadoop中的核心设计包括两点:HDFS和MapReduce。图中白色块属于HDFS,黑色块属于MapReduce

4)优点

① 大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。

② 文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。

③ 流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。

④ 廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机,就可以撑起一个大数据集群。

⑤ 硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。

5)缺点

HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件

6)适用场景

搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 2,793评论 0 51
  • 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的...
    吴瑞文阅读 1,486评论 1 11
  • hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件...
    编程鸭阅读 1,228评论 0 3
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 6,369评论 0 22
  • 走进五月,除了董市月季的妖娆和同心花海偶尔的抒情,我最喜欢的就是仙女了。 循着山水的清灵,我来到了张家湾。不是写三...
    半截烟阅读 819评论 1 3