数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:
1、data pre-processing
2、data interpretation
3、data modeling and analysis
这也就是我们做数据工作的三个大步骤
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据
2、我们想看看数据“长什么样”,有什么特点和规律
3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,按照这个思路走,数据一般不会做跑偏。
有兴趣的小伙伴可以多关注一下科多大数据: