大数据问题的本质
行为数据
业务数据以外的数据,预先采集,再考虑如何使用。
数据量大,是业务数据的10~100倍
一致性要求低,丢一部分数据没什么影响
比如:医疗行业的业务数据是病人的病例,行为数据是这个人没有生病时的饮食习惯、作息规律、健康状况全量加工
对于应用场景来说,如果数据特性要求大规模分布式处理才能完成,就满足全量加工。
如果数据特性允许通过采样处理,那么不需要分布式也能完成,就不属于大数据的范畴。自动化应用
传统数据分析是洞察应用,是 数据-人-人工决策
大数据分析的自动化应用,是 数据-机器-机器自动决策
比如,广告推送系统,分析用户行为特征,构建用户画像,自动选择推送哪些种类的广告。
什么是数据科学家
能采用科学方法,调动充足计算能力,将大量人类无法直接处理的数据转化成有用的信息,以驱动自动化业务决策的科学家
- 科学方法: 不同与以往,通过人的经验判断数据特征
- 计算能力:对应大数据问题的全量加工特性
- 自动化应用:对应大数据问题的自动化应用特性
数据科学家的必备技能
** 数据科学家的必备素质 **
机器学习原理和方法
领域知识的深刻认识:领域内从应用到建模的过程
分布式计算的使用能力:主要是会用
** 数据科学家的核心能力 **
统计基本准则
机器学习建模能力:面对实际场景怎样建模?可以通过参加比赛训练
最优化、Hadoop及相应编程能力,领域学习能力。
谷歌Big Data 三架马车
- gfs
- mapreduce
- bigtable
数据科学家的养成途径
顶层 建立数据意识
数据优先于经验,计算优先于人工
中层
具备数据能力
熟悉一项应用,对一个应用的整个流程有一个感性的认识。
定义问题的能力最重要,将一个实际的问题定义成一个数学上可优化的函数。
底层
具备基础技能
机器学习,深度学习,并行计算,最优化,分布式计算,熟悉一种编程语言,博弈论
数据科学家 定义在前面
数据工程师 开发新的大数据平台
数据分析师 数据洞察类应用,更多的人工决策
产品经理