数据湖真的已经没落了吗?

就在不久前,整个数据世界还在沸沸扬扬地讨论如何创建集中式数据存储,以最大限度地提高数据的可用性,从而达到高级分析的目的。博客们大声疾呼反对数据湖,支持组织良好的数据库,开源社区团结在Hadoop生态系统周围,大数据技术飞速发展。本文就这个状况回顾一下推动数据湖采用的一些假设,并注意一下这些假设的稳定性。

假设1: "数据存储很贵,所以建立属于自己的Hadoop数据湖,经济效益看起来更有吸引力。"

事后看来,这个假设如何?

可以肯定的是,Hadoop中每GB存储的TCO可以比传统RDBMS系统的成本低5%甚至更低。但是,即使是最有经验的企业也很快了解到运营一个企业集群有多难。开源软件的不断更新,管理环境的技能稀缺,以及生态系统的相对不成熟,都造成了难以管理的技术故障和依赖性。除此之外,一旦Hadoop完成了三次数据复制,管理员需要快照和副本来克服Hadoop更新的局限性,1TB的RDBMS数据可能会在湖中变成50TB。这些节省下来的钱就这么多了。

新兴的现实:云和云数据仓库

亚马逊、微软和谷歌急于用托管的、基于云的环境来填补这些生产力的空白,这些环境简化了管理,使数据科学家更快地提高生产力。接下来,消费模式取代了Hadoop on-pre环境的资本成本,这意味着人们不太愿意简单地将所有大型数据集倾倒到一个中央环境中。相反,他们根据分析需要加载数据。因此,这就产生了从大型的on-prem数据湖转移到小型的基于云的数据池塘的效果,这些数据池塘是为目的而建立的。再进一步,新的云仓库通过基于SQL的工具使访问和查询这些数据变得简单,这进一步向非技术消费者释放了数据的价值。

假设2: "大数据太大了,搬不动。移动一次数据,把电脑移到数据上"。

事后看来,这个假设是怎样的?

数据湖的一个关键假设是,网络和处理速度的限制意味着我们无法将日志文件等数据的大副本移动到集群中进行数据分析。Hadoop也是面向批处理的,这意味着这些类型数据的大批量处理是非常不切实际的。事实证明,数据复制和流媒体的改进,以及网络方面的巨大收益,导致这种情况没有我们想象的那么真实。

新兴的现实:数据虚拟化和流媒体

技术的改进意味着企业可以选择如何访问数据.也许,他们希望将查询从事务性系统卸载到云环境中;数据复制和流媒体现在是简单的解决方案。也许,交易系统是为高性能查询而构建的;在这种情况下,数据虚拟化功能可以使该数据按需提供。因此,企业现在可以选择让数据更多地按需提供给DataOps流程,这意味着并不总是需要将所有企业数据物理地集中在一个位置。

假设3: "读时的数据湖模式将取代写时的数据仓库模式。"

事后看来,这个假设如何?

人们已经厌倦了IT团队将ETL写入数据仓库所花费的时间,并迫切希望简单地释放数据科学家对原始数据的处理。有两个主要的症结所在。首先,数据科学家往往不能轻易地找到他们要找的数据.其次,一旦他们有了数据,分析负责人很快就会发现,他们的ETL只是被数据纠缠工具所取代,因为数据科学仍然需要清理,如标准化和外键匹配。

新兴的现实:数据目录和数据运营

智能数据目录已经成为寻找所需数据的关键。现在,企业正试图通过简单的解决方案,在工作场所建立起用户在家中享受的谷歌搜索一样的搜索方式,以查找和访问数据,而不管保存数据的数据存储的物理位置在哪里。DataOps流程也已经出现,它是建立基于领域的数据集的一种方式,这些数据集经过精心规划和管理,可以实现最大的分析生产力。因此,数据科学家应该能够轻松地找到并信任他们用来发现新的见解的数据,经过深思熟虑的技术和流程的融合应该能够使数据管道和分析管道快速运行,以支持这些新发现。这个过程可以实现实时分析。

在Qlik寻求现代化的数据分析架构时,这些关键的新兴现实是他们需要思考的重点:

基于云的应用和分析架构

数据仓库/RDBMS结构在云中的重新崛起,以实现价值最大化(想想Snowflake)。

数据流以减少关键数据的延迟

数据虚拟化,以减少数据的复制,直到需要为止。

数据目录,仔细清点和管理企业数据的访问。

DataOps流程的出现,为数据和分析管道创造了快速上市的时间。

关于Qlik

Qlik的愿景是一个数据素养的世界,每个人都可以使用数据来改善决策并解决他们最具挑战性的问题。只有Qlik提供端到端的实时数据集成和分析解决方案,以帮助组织访问所有数据并将其转化为价值。慧都作为Qlik官方的中国合作伙伴,我们为Qlik的中国用户提供产品授权与实施、定制分析方案、技术培训等服务,旨在让中国企业的每个Qlik用户都能探索出数据的价值,让企业形成分析文化。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容