从2010年至今,大数据投资热潮与大数据岗位开始集中爆发。从360指数我们可以看出,目前大数据在市场的热度远远高于前几年特别火的产品经理。
大数据之火热,以致身边很多人对于大数据相关热门趋势及词汇都能随口就来。但如果问他大数据和他之间的关系,却很难能说出一二三来。
究其原因,大家置身于大数据环境下,耳濡目染各种新的概念,但是真正参与实践大数据的案例少之又少,造成了对大数据整体认知的缺失。
下面讲讲大数据行业不同角色对大数据的观点,希望能够还原出来一个较为全面的认识,了解不同角色对大数据的需求背景。
大数据开发
2010开始,大数据成为了分布式技术框架的别名,Hadoop开始频繁进入大家眼中,从此以后,hive,spark,flink等分布式计算框架如雨后春笋进入大家的开发工作环境中(当然大数据的薪资也开始水涨船高,远远高于其他同类开发)。
那么在大数据开发的眼中,大数据应该是长这样的:
第一:数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);
第二:数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等;
第三:需要不同的框架解决不同的问题。
在大数据开发眼里,大数据是一堆框架的集合。
数据分析及算法工程师
随着大数据技术的发展,传统基于关系型数据库的BI底层逐步被大数据替代。
数据采集全面进入线上化,公司开始全量采集线上数据,全量存储用户行为数据作为分析数据源。传统的基于抽样的统计方式逐步被全量统计方式替换,原有技术框架支持不了的用户行为分析也逐步成为大数据分析场景的标准流程,基于单机的数据挖掘算法逐步被替换成分布式的机器学习和深度学习替代。
在分析师和算法工程师眼里,数据又表现为如下几个方面:
第一:数据记录全面,能够分析的场景越来越多;
第二:数据价值密度很低、挖掘难度变大;
第三:单机无法解决,需要借助大数据相关工具。
在他们眼里,大数据意味着更多的场景可以被分析量化。
数据产品经理
随着工具及算法的逐步完成,基于大数据做到千人千面的推送及定价方案已经成为可能。
有一个非常经典的案例:为提高在主营产品上的赢利,亚马逊在2000年9月中旬开始了著名的差别定价实验。
亚马逊选择了68种DVD碟片进行动态定价试验,试验当中,亚马逊根据潜在客户的人口统计资料、在亚马逊的购物历史、上网行为以及上网使用的软件系统确定对这68种碟片的报价水平。例如,名为《泰特斯》(Titus)的碟片对新顾客的报价为22.74美元,而对那些对该碟片表现出兴趣的老顾客的报价则为26.24美元。
通过这一定价策略,亚马逊提高了销售的毛利率。在此我们不考虑这个定价策略是否妥当,但是大数据技术的确已经验证可以为企业带来更多的收益。
在产品经理眼里,我们发现了另外一种大数据的看法:
大数据意味着更好的产品优化及产品收益已经成为可能,至于具体的技术细节和算法,并不是他们关注的点。
当然,除了如上三个岗位,其实还有很多大数据相关的配套岗位,他们对大数据亦有各自的理解。
但是如果作为一个企业落地大数据项目,我们唯一需要综合考虑的是如何在最低投入的情况下,保证长期与短期效益的均衡,举个例子来说:
1、 如果过分重于技术,会导致技术费用投入过大, 成本急剧放大
2、 如果过分重于分析,缺乏有效产品整合的话,可能牺牲长期效应
3、 过分重于产品的话,投入较长的时间产品化,可能牺牲短期收益
为了平衡三个岗位偏差造成的需求差异,大数据架构师、数据科学家相关岗位应运而生。
与传统商业智能领域类似,大数据架构师及数据科学家需要解决的核心问题还是如何构建一套稳定高效的大数据技术组件下的数据仓库。
我从落地的多个企业级大数据项目总结出,设计一个高效可靠的数据仓库会成为一个企业大数据项目成败的最关键因素
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。