数据抽样

数据抽样里最常见的四种方法:简单随机抽样、系统抽样、分层抽样和整群抽样。

大数据其实不是数据抽样的终结者,无论是大数据还是小数据,它都无法逃离统计学、数学、集合论、数据结构等这些基础理论的约束。所以我之前给你讲的数据分析的原理,也同样适用于大数据环境。

如果你能把数据抽样的这个“涡轮加速器”运用到你自己的工作和生活当中,那么你就可以事半而功倍,通过针对一小部分的人和事情的观察而看到整个事物的整体情况。古人说“管中窥豹,可见一斑”,那么对应到我们的数据分析上,说的就是合适的数据抽样算法能够由点及面地看到事物的全貌。

思:对全量数据的处理效率很低,有时候也不可能,所以需要采用抽样的方式来从点到面看到全貌。抽样包括简单随机抽样、系统抽样、分层抽样、整群抽样。

大数据时代同样需要利用到抽样技术,一方面消除数据的偏差,一方面提高计算效率。

此文章为11月Day28学习笔记,内容来源于极客时间《数据分析思维课》,强烈推荐该课

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容