月薪2万只是一般!大数据技术到底值钱在什么地方?

大数据听着很牛,实际上也很牛吗?我们经常看到大数据工程师月入两万三万五万,那么大数据到底值钱在哪里呢?

就是收集很多用户数据,用机器进行处理嘛,干嘛整天吵得这么high。传统行业的数据,收集和分析慢,互联网时代特别是移动互联网时代,数据收集和分析都变得更快更智能,仅此而已吧。

真的是这样吗?今天我们来看看两位业内人士的深入分析。

01

大数据的商业价值

大数据是近年来新出热门词汇,人们对于大数据的理解还不够全面,甚至存在一些误区,认为数据量大就是大数据,或者认为里面数字大也是大数据,实际上这些只属于统计的范畴,和大数据是没有关系的。

所谓大数据,其实是有两部分组成的。一部分是海量运算存储能力,一部分是数据建模算法。

认为大数据是更快更智能的处理技术的人,只是认识到了大数据海量运算储存能力,而这部分只是量变,却没有认识到质变。

如果针对消费者市场,大数据的目标是对每个消费者有清楚的认知和跟踪。

你的年龄、身高、家庭背景、收入水平、信用水平等等这些表面的客观的信息自不必说,你此刻在哪里、喜欢什么颜色、喜欢什么风格、想要什么东西,都能够收集分析出来。之后便会在你正在看的视频网站、正刷的APP,所有这些界面上呈现信息,引导你关注。

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:458345782,欢迎添加,了解课程介绍,获取学习资源

随着这项技术的进步,甚至可以提前预知你想要购买的东西,提前一步给你送达。可以想象一下,你想买一个东西下单二十分钟就到你家门口了,因为早就预测到你什么时候想要什么了,所以几天前预测到就提前发货到你小区的提货点了。

这样的精准的服务,以后对消费者而言当然是习惯了就不再记得它有多伟大。就像过去的工业革命,只有经历那个时代的当事人那个时代的缔造者们才会对那些创造充满激情,而我们对随手可得的电和各种电器还会有什么惊喜吗?

传统的数据行业,一没有足够强的数据获取能力,二没有足够强的数据加工能力。包括以前靠预测总统大选起家的那家公司,他们的采样是局限的,比如寄调查问卷,调查问卷这种采样是难以重现真实的,且基于传统的小样本统计方法。另外,数据处理能力也很有限。

与之相反,大数据的采样是无法说谎的,你点击、浏览、地理信息等等这一切行为都在眼皮底下发生。这是大数据的第一个“大”,维度大。

同时,数据采样是覆盖几亿人口全天候的。这是大数据的第二个“大”,数量大。相对传统的抽样小样本集而言,大数据可以称之为全样本。正是这两个“大”,就能够带来数据的质变。

再看数据加工。传统的加工,恐怕多数人靠Excel吧!我们采一天的数据就能撑爆几万台你们家里的电脑硬盘。至于计算,可以想像一下,对这个数量级的数据矩阵做个最简单的矩阵分解要怎么实现。这是机器的能力。

人的方面,现在很多传统的搞这些的统计方向的人经常会说,“唉,现在都搞算法去了”。没错,算法就是人与机器协作的沟通方式,只有和机器深度合作,才能得到更高的生产力。

这一切,在消费者的眼里,也许也不是那么的了不起,不就是一下单马上就到嘛,不就是各种方便嘛,怎样还不是一样的活。但是这对商业而言却是惊天动地的。

过去你卖衣服的,你的周转库存和滞销库存恐怕吃掉了你一半的利润都不止;一旦有了大数据支撑,你的库存几乎可以忽略了。过去你搞设计的,你耗尽心力设计出来的作品很可能在市场上得不到认可;有了这个精准大杀器,消费者的数据会告诉你他们要什么,你设计师锦上添花就好,真正的设计者其实是消费者自己。

过去你搞营销的,投入一大笔钱搞个营销方案,结果收效甚微;一旦有了这个精准大杀器,营销的投入风险就低多了。

大数据带来的精准对商业的影响是方方面面的。这是新时代对旧时代的淘汰。除了商业,还有大量别的用处,都将深刻地改变世界。比如个人征信、医疗行业、能源行业、公路交通等等。太多太多,这些都会深刻地改变世界的运作方式

02

技术角度分析大数据

我有20个整数,一把全装进内存,调用个sort,完事了。

我有2GB那么多的整数,一把全装进内存……恩恩,如果机器不那么破,勉强也完事吧。

我有20GB那么多的整数,对,往你家PC里多插几条8GB的内存条试试?

那我现在有200GB那么多的整数……看你丫的怎么装内存,哈哈哈哈哈哈!

吓尿了吧!?写外排序?你写啊!It's ONLY the beginning!很多人可是连内存里的快排都写不出的哦~

200GB算个啥大数据啊,苍老师的合集都不止咳咳……

OK,显然我们已经意识到1台机器装不下了。咋办?多找几台机器呗。多找几台机器意味着啥啊?分布式计算懂不懂,连分布式都不懂说个毛大数据啊!!!

好,现在有200GB的整数,排个序吧……呃,给你10台机器吧。

1)这200GB的整数,如何分配?

2)这10台机器之间如何通讯?没错,我不止坑了你去写外排序,我还得坑你去玩网络编程。

3)假设每一台机器上的数据都已经完全排好,如何多快好省地把各自排序好的结果merge在一起?

4)如何设计有效的merge逻辑减少10台机器之间的网络IO。

5)别以为10台机器不需要维护,万一在排序的时候其中一台机器挂了,怎么办?具体包括但不限于:他在挂之前有响应其他机器发给他的request吗?他在挂之前自身的任务完成了多少了?假设这台机器在挂的时候正在跟隔壁的机器互相传输数据肿么办?

6)谁去监听这10台机器的健康?或者是其他机器怎么知道某台机器挂了?如果是连接超时,怎么知道是网络阻塞还是目标机真的挂了?

7)如果某台机器真的挂了无法恢复,又或者由于隔壁的黄大牛要打魔兽了劫走了一台(集群升级,集群中的节点被临时撤走的事常有哦),如何把那台机器上那20GB的数据分给其余的9台?

如果数据不是200GB,而是2TB,2PB……

1)这么大的数据,这么大的集群,同一时间挂掉的机器数量可能会很多。如果这个集群用来做存储(例如百度云),怎么保证用户的数据不丢失?

2)如果这个集群用来做离线计算,怎么设计调度程序提高每台机器的资源利用率,减少集群内的网络IO和尽可能地提高每台机器的响应速度?

3)我希望集群是可扩展的,最好架构能支持我只要简单地增加机器数目就能扩充集群的计算和存储能力,这个架构要怎么设计?

建议题主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等内容。

“传统行业的数据,收集和分析慢,互联网时代特别是移动互联网时代,数据收集和分析都变得更快更智能,仅此而已吧。”

只所以题主会这么说,是因为题主作为局外人,能看到的就只有这些表面的最直观的现象。一句简单的“数据分析变得智能了更快了”的背后,实际上是无数人付出的勤奋、创造力、勇敢还有艰辛!

马云爸爸说,未来是DT时代,大数据是最重要的资产。

未来三至五年,中国需要180万数据人才,但目前只有约30万人。到2020年,企业基于大数据计算分析存储、数据挖掘、数据分析等数据产业的发展,我国需要更多的数据人才。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容

  • 前段时间有报道称,有学者质疑“大数据”理论,也有硅谷公司负责人质疑大数据应用的效果。结合2011年Gartner关...
    栀子花_ef39阅读 1,420评论 0 5
  • 数据智慧给你讲讲:大数据究竟是什么 零、解构大数据 首先,大数据就是互联网发展到现今阶段的一种表象或特征而已,没有...
    戰敭阅读 1,964评论 0 24
  • 古籍《历书》中有云:“春分后十五日,斗指丁,为清明,时万物皆洁齐而清明,盖时当气清景明,万物皆显,因此得名。” 再...
    刘正峰阅读 880评论 2 1
  • 匆匆的西藏之旅给我留下了太多的回忆,即将离开之时,有太多的不舍,很遗憾的是这次因为天气太冷,没有能去古格王朝遗址,...
    Tong_yh阅读 493评论 0 5
  • 微博上说:愿你独立到不需要人疼不需要人宠,却依旧能幸运到有人疼有人宠。事实上吧,这样幸运的人很少,至少我没有那么幸...
    暮晨_阅读 1,044评论 1 7