这几天国家可持续发展大数据国际研究中心成立大会,大数据热度不减,各领域都在利用大数据提升自己的格调。这些年一直从事信息化相关工作,也算大数据边缘行业的从业者,整理一下自己对大数据的愚见,欢迎大家交流。
由于工作的关系,最近接触了一些统计方面的知识,先百度了两者的区别,以下引用一下百度百科的的一套关于大数据和传统统计学区别的回答。
一、知识体系不同
1、统计学注重的是方式方法;
2、大数据则更关注于整个数据价值化的过程,大数据不仅需要统计学知识,还需要具备数学知识和计算机知识。
二、技术体系结构不同
1、统计学知识主要应用在大数据分析领域,统计学方式是大数据分析的两种主要方式之一,另一种数据分析方式是机器学习。
2、大数据技术,不只是涉及到统计学,还有数学、计算机及各行业的学科内容。是学科交叉融合的一门新兴专业。
三、数据集不同
1、传统统计学由于可行性的原因,常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。
2、大数据则常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料等。在这种情形下,统计学的推断就没有价值了。
(以上引自https://zhidao.baidu.com/question/1432389636191713979.html)
“版本内升级”VS“版本迭代”
以上的区别我是表示认同的,但我觉从认识上还是要进一步区别清楚大数据对于传统统计,是实施方法上的升级还是取代性的新事物。就像现在常见的两种对待大数据的极端态度:一种是把大数据捧上天,大数据万能,有了大数据看不上统计,觉得还做统计分析落伍了;一种是踩下地,看不上大数据,觉得就是统计,就是大屏上的“ppt”。我认为都是对大数据认识不够准确、定位不够清楚。
“工具手段”发展明显
之前记得看了一本书讲大数据如何超越传统统计,拿了人口统计的例子,强调传统统计通过样本数据来分析,而大数据可以利用全量数据,上面的区别也提到了数据集的差别。从数据获取范围、获取技术上,大数据带来的新技术和新理念,的确给传统统计分析方法提供了新的“工具手段”,开拓了新思路。
“解题模式”的超越
但另一方面,我觉得不同的工具或者方法,从解决问题的方式、效率等方面去辨识会更加清楚,也更利于选择和发展。从解决问题的基本思考模式角度,目前大部分所谓的大数据应用和传统统计在方法模式上是趋同的。大数据仍是在传统统计的思考模式框架下解决问题,或者说传统统计和大数据应用,仍是在相同的数据化思考框架下去解决问题。“定义指标模型、收集数据(抽样或全量、汇总或实时)、刻画客观世界,发现问题寻找规律”的“解题模式”是一贯的,大部分大数据应用在这一层上没有超越传统统计。