大数据基础概念

WeChat Image_20181020171108.png

传统的大数据

在大数据这个概念还没出来以前人们是怎么进行数据数据分析和计算的呢?

数据存储

首先数据量都没有很大,不同的数据散布在不同数据库中。如果真的数据大的话就只能花最贵的钱买最好的机器最好的数据库或者多分几个库装。

数据分析

人们还没有意识到数据可以做很多事情,所以数据的需求也比较少; 使用传统的数据库和单机程序来进行统计分析,就能满足大部分需求。如果公司比较注重数据的话,可能会弄一个数据中心,汇总各种数据,开发一套数据分析系统来完成自动化的报表。

转折

数据量越来越大,数据分析的成本越来越高。某一天Google扔了三篇论文出来引爆了大数据(Google总喜欢把自己不用了的技术分享出来)。这三篇论文提出了一个解决数据太多,存不下,计算不了方案,从此打开了大数据时代的门。人们根据这三篇论文​开发了hadoop家族,后来成为大数据的标配,开始了全民大数据的时代。

现在的大数据

普遍的都利用hadoop家族建立起大数据平台,汇聚各种数据,统一进分析计算。

数据源&数据采集

自从大数据的处理工具完善之后,基本能称得上数据的东西都可以整合进大数据平台。比如,前端的用户行为日志、后端数据库、爬虫的数据等。

埋点

所谓的埋点就好比埋的地雷,你走过地雷响了,我就知道你走过哪里。正常来说就是你在网页或app上点击某个按钮是就把你这个点击行为记录下来发给服务器,这样就知道你都干了啥。​当然埋点你可以自己写程序手动埋,也可以引入第三方工具实现自动话埋点。有时候前端不方便埋点就可以在服务器后端程序进行埋点。

数据库

数据库呢,主要记录一些状态数据,比如你的性别年龄啥的。

数据接入

这么多数据源想要进入大数据平台,当然都会有不同的渠道,同一个数据源也可能有不同的进入方式。

批量数据

比如数据库的数据都是些状态数据,业务的需求要求的实时性不高,可以每天批量的导入。导入的方式又可以分为增量和全量

全量

每次导入全部的数据,因为数据是在不断变化的,我们只截取导入时刻的数据。

增量

每次导入有变化的数据;当数据有变化时我们就标记一下每条数据变化的时间,依据这个时间判定这次是否导入。

实时流数据

像用户行为这种数据每时每刻都在不断的产生,业务的需求可以需要我们快速的反应,比如用户搜索了某个商品下一秒马上推送相关的商品。这时数据要快速的流动快速的计算,就出现了数据总线的概念,把数据接入数据总线实时的流入大数据平台。

数据存储

大数据平台的存储其实是比较单一的,就是一个分布式文件系统,当然这个文件系统又可以分各种存储格式来存。

数据处理

数据处理就是大数据平台的核心了。分实时的处理和批量处理。

数据查询

数据在大数据平台处理完成输出到业务系统进行使用,大数据平台也可以直接提供查询服务。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 忽逢桃花林,夹岸数百步,中无杂树,芳草鲜美,落英缤纷。 被桃花灵牵引着,走向林里深处。灼灼桃花,林十里,莫能衡度之...
    众声阅读 2,767评论 0 0
  • 爱情的成本很低,低到说爱你就能奉献身体和灵魂。但是婚姻就不一样,除了奉献爱,还有消耗精神和金钱。婚姻,更是一...
    你的方式阅读 1,850评论 3 4
  • 其实我一直都记得你 不曾忘记 偶尔的撒娇 坏脾气 就像熟透的红苹果 悬挂枝头 我知道在你的心中我已不是最初的那个唯...
    茻暮南森阅读 1,495评论 0 0
  • 这个世界很残酷,它逼着你按照剧本去走,逼着你不准和大多数人不一样,每个人身后都有千万条无形的线拉扯着你默默前行,什...
    佐耳洛阅读 1,535评论 0 0
  • 生了孩子后,我变得犹其强大,可以整晚整晚不睡觉,就为了照顾老是哭闹不止的他,眼皮直往下掉还撑着身体抱着他在房里有一...
    千千度阅读 5,295评论 0 0

友情链接更多精彩内容