在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特征数据的方式根据数据范围的不同分为普遍调查和抽样调查。
普遍调查
是对数据全体范围内的所有对象进行逐个调查,达到准确了解数据总体特征的方法。
最典型的例子就是我国十年一次的全国人口普查项目。其优点是采集的数据准确、全面;缺点是成本高、效率相对较低。
抽样调查
是从全体数据中随机抽取一部分数据作为样本数据进行调查分析,从样本特征推断数据的总体特征。
其优点是效率高而且成本低,缺点是其采集的数据存在偏差有时会影响分析结果的准确。
常用的抽样方法有以下四种:
1、简单随机抽样
将全体数据进行编号,然后在总体数据中随机抽取一定数量的数据组成样本数据,即为简单随机抽样。适用于数据量较少的情况。
例如:抽签或者抽奖活动,
2、分层抽样
如果目标数据可以被分为若干个互不重叠的部分(即分层),每个层中的数据具有相似的属性,那么可以按比例从各层随机抽取数据组成样本数据,即为分层抽样。
例如:一所大学要对所有学生进行普通话水平进行调查评估。学生总数25000人,拟抽取样本500人,考虑学生主要来自六个方言区域,所以分成六个层(如学生来源占比10%、20%、15%、30%、15%、10%),每个层按比例分别抽取50人、100人、75人、150人、75人、50人,组成500人的样本数据。
3、系统抽样
又称为等距抽样,首先设定抽样间距为n,然后在前n个数据中抽取初始数据,再按顺序每隔n个单位选取一个数据组成样本数据,即为系统抽样。
例如,设置抽样间距为20,初始数据从1到20个数据中随机抽取,假如抽取到第16个,那么每隔20个单位抽取一个数据进入样本,即为第16个、第36个、第56个、第76个……均被抽取进入样本数据中。
4、整群抽样
又称聚类抽样,是将全体数据拆分成若干个互不交叉、互不重复的群,每个群内的数据应尽可能具有不同属性,尽量能代表整体数据的情况,然后以群为单位进行抽样,称为整群抽样。
例如:美国大选的民意调查一般采用整群抽样的方式,美国有50个州1个特区,每个州有很多个郡,选民的意愿与其所处的郡无关,因此每个郡都可以看作是整群抽样的一个群,对郡内每个选民进行意见收集。
以上四种基本抽样方法都属于数据随机抽样,实际应用中常根据业务需求将整个抽样过程分为不同的阶段进行,来完成数据的采集任务。