统计小讲:关于数据收集

数据的基本概念

个案(case):在一个数据集中,我们收集信息的对象。

变量(variable):对每个个案收集的属性。

一般在一个数据集中,我们会用每一行代表一个个案,每一列代表一个变量,比如:

姓名 数学成绩 语文成绩 英语成绩
小明 89 56 45
小王 67 90 78
小吴 89 77 85

需要了解每一个变量以及变量中的每个取值所代表的含义。比如对于一个变量性别,我们可能会用1表示男性,2表示女性。

分类变量(categorical variables):将个案分为不同的组,每一个个案都会被分到其中一个类别中。

量化变量(quantitative variables):记录每个个案的数据量,加减、平均这样的数学运算只适用于量化变量。

比如,性别、行业、宗教信仰这些都是分类变量,每个个案属于其中某个类别,而不同类别之间没有自然的数学关系,如A行业是B行业的两倍之类;年龄、收入、工作年限这些都是量化变量,它们存在自然的数学关系,比如A的年龄是B的两倍,这是合理的计算方法。

在一个研究中我们会收集多个变量,并且试图根据变量之间的关系来获得一些新的知识。

解释变量(explanatory variables) 和反应变量(response variables):当我们试图用一个变量来帮助理解或者预测两一个变量的值时,前者就叫做解释变量,后者叫做反应变量。

注意,两个变量之间即使相关,也未必是一对解释变量和反应变量,取决于我们是否试图用前者解释后者。

抽样与误差

总体(population):我们感兴趣的课题中涉及的所有个体或对象。

样本(sample):总体的一部分,是我们收集数据的实际来源。

比如说,当我们想知道某个产品客户流失的原因时,所有流失的客户就组成了总体;我们通过某种抽样方法找到一些客户来参与调查,这部分客户就是这个研究中的样本。

统计推断(statistical inference):使用来自样本的数据来获得关于总体的信息的过程。

也就是说,当我们感兴趣一个课题的时候,我们希望知道的是关于总体的信息;但是我们一般很难获得总体的数据,于是我们从总体中抽取出一个样本来,收集样本的数据并使用统计推断方法来了解总体。

抽样误差(sampling bias):当我们选择样本的方法导致了样本在某个相关的方面与总体产生了差异时,就有了抽样误差。如果有抽样误差,我们就不能根据样本对总体做出可信的推断。

为了避免抽样误差,我们需要努力抽取出有代表性的样本。

简单随机抽样(simple random sample):保证总体中的每个对象都有同样的概率被抽中。简单随机抽样能够有效避免抽样误差。

遗憾的是随机抽样很难,我们一般无法达到。此时需要谨慎地定义我们的总体,避免过度推断。

除了抽样误差外,数据收集过程还可能存在其他误差:

  1. 尽管我们做了随机抽样,但是被抽中的被试也有可能选择不参与我们的研究,如果存在某种特殊理由导致某类被试中很多选择不参与,就会导致样本误差。

  2. 问题的表达方式可能会影响结果。比如,Daniel Rugg在1941年的研究显示,询问“你觉得美国应该允许反对民主的公开演讲吗?”21%的人认为应该允许;询问“你认为美国应该禁止反对民主的公开演讲吗?”只有39
    %的人觉得不应该禁止。

  3. 被试可能没有诚实回答问题。可能是出于社会期许效应,或者只是单纯地没有认真回答。这都会带来数据的误差。

研究方法和因果关系

相关(association):一个变量的取值与另一个变量的取值有关时。

因果(causation):当改变一个变量的取值会导致另一个变量取值改变时。

理解相关和因果之间的区别很重要。因果是有特定方向的:一个变量的改变导致了另一个;而相关的变量却没有这种关系。

人们总会积极地寻找对现象的解释(因果关系),因此很多只有相关而没有因果的结论传递到大众面前时,总是会有一些误导性。比如,有研究发现HDL胆固醇的含量与心脏病发作率有负相关。这时大家可能以为其中存在因果关系,试图通过药物补充HDL胆固醇来预防心脏病。但是进一步的研究发现是基因、饮食和运动同时影响了HDL胆固醇含量和心脏病发作率;仅仅通过药物提高HDL胆固醇含量可能并不能预防心脏病。

上面例子中的基因、饮食和运动就是混淆变量:

混淆变量(confounding variable):与解释变量和反应变量都相关的变量,混淆变量可以对相关关系提供可能的解释。

那么,通过怎样的过程可以得出相关关系,怎样的过程可以得出因果关系呢?

实验(experiment):研究者积极地控制一个或者多个解释变量,可以得出因果关系。

观察研究(observational study):研究者没有积极地控制任何变量值而只是简单地在它们自然出现时观察其取值。在观察研究中,通常得出的是相关而非因果关系。

实验也有多种类别:

随机化实验(randomized experiment):每个研究对象在解释变量上的取值都是随机分配的,并且是在观测反应变量之前。因为进行了随机化处理,消除了潜在的混淆变量的影响,因此随机化实验得出的相关关系可以被解释为因果。

  • 随机化对比实验(randomized comparative experiment):将研究对象随机分配到不同的组中,每个组在解释变量上的取值不同,然后观察反应变量的结果。
  • 配对实验(matched pairs experiment):每个研究对象会以随机的顺序先后经历不同的解释变量值,然后比较在不同解释变量值下的反应变量的差异。配对实验能够消除个体差异带来的影响。

实验虽然能够得到因果关系,但是也存在一些局限:有一些课题不能够用实验来做。比如空气质量是否会带来健康问题、工作压力是否会影响产妇孩子的顺产率等,不可能随机分配一些被试到空气质量差、工作压力大的环境中。这些情况下就只能做观察研究。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容