数据分析基础—4.1 数据抽样

在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特征数据的方式根据数据范围的不同分为普遍调查和抽样调查。

       普遍调查

       是对数据全体范围内的所有对象进行逐个调查,达到准确了解数据总体特征的方法。

       最典型的例子就是我国十年一次的全国人口普查项目。其优点是采集的数据准确、全面;缺点是成本高、效率相对较低。

       抽样调查

       是从全体数据中随机抽取一部分数据作为样本数据进行调查分析,从样本特征推断数据的总体特征。

       其优点是效率高而且成本低,缺点是其采集的数据存在偏差有时会影响分析结果的准确。

       常用的抽样方法有以下四种:

       1、简单随机抽样

       将全体数据进行编号,然后在总体数据中随机抽取一定数量的数据组成样本数据,即为简单随机抽样。适用于数据量较少的情况。

       例如:抽签或者抽奖活动,

       2、分层抽样

       如果目标数据可以被分为若干个互不重叠的部分(即分层),每个层中的数据具有相似的属性,那么可以按比例从各层随机抽取数据组成样本数据,即为分层抽样。

       例如:一所大学要对所有学生进行普通话水平进行调查评估。学生总数25000人,拟抽取样本500人,考虑学生主要来自六个方言区域,所以分成六个层(如学生来源占比10%、20%、15%、30%、15%、10%),每个层按比例分别抽取50人、100人、75人、150人、75人、50人,组成500人的样本数据。

       3、系统抽样

       又称为等距抽样,首先设定抽样间距为n,然后在前n个数据中抽取初始数据,再按顺序每隔n个单位选取一个数据组成样本数据,即为系统抽样。

       例如,设置抽样间距为20,初始数据从1到20个数据中随机抽取,假如抽取到第16个,那么每隔20个单位抽取一个数据进入样本,即为第16个、第36个、第56个、第76个……均被抽取进入样本数据中。

       4、整群抽样

       又称聚类抽样,是将全体数据拆分成若干个互不交叉、互不重复的群,每个群内的数据应尽可能具有不同属性,尽量能代表整体数据的情况,然后以群为单位进行抽样,称为整群抽样。

       例如:美国大选的民意调查一般采用整群抽样的方式,美国有50个州1个特区,每个州有很多个郡,选民的意愿与其所处的郡无关,因此每个郡都可以看作是整群抽样的一个群,对郡内每个选民进行意见收集。

       以上四种基本抽样方法都属于数据随机抽样,实际应用中常根据业务需求将整个抽样过程分为不同的阶段进行,来完成数据的采集任务。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容