basic data analysis

screening the dataset

两个目的:1遗失的数据 check for missing data

2 奇怪的 和 错误的数据 

什么算是奇怪的数据?

consistency check 前后回答不一致的

filler questions 是? 

极端的数据 怎么算极端? 

如何做?

1 analyze frequencies 频率,- check missing data and extreme data ?

2 scatter plot 分布图 - check consistency

*不会 spss- scatter plot , select cases

对’坏数据‘做什么?

啥都不做

收集更多数据

assign missing value-

for not key variables, 填充平均数 substitute neutral values, usually the mean

impute values (根据附近的数值填充)

删掉

决定主要是取决于how many good repondents there are


analyzing dataset

levels of measurement 

assigning number ,spss-values

spss中的scale是指 metric data,包括interval和ratio。

nominal 类别

ordinal 排序

interval 评分什么的 1—10 

ratio 有含义的数据

数据检验statistical tests 就取决于 度量的类型 the level of measurement of a variable

types of statistical analyses

1描述分析descriptive analysis。总结样本,频率分析

2推断 inferential analysis,由样本推总体,假设检验 和 confidence intervals(可能存在一个模型啥的) ,one-sample

3比较分析 differences analysis , 比较两组或多组数据mean。differences among means. 

4关联分析 associative analysis,考察一个关系的strength and direction. cross-tabulations and correlations.

5预测 predictive analysis: regressions.

descriptive analysis

summarize data 总结样本

HOW 如何总结,(总结啥)? (一般来说 这些数据有意义吗)

-descriptive analysis 那一套 

1. location: mode , median ,mean

2.variability: (interquartile)range, variance , standard deviation (为啥有了方差还要标准差),coefficient of variation: =standard deviation/mean 

3.shape : skewness, kurtosis 

*注意:描述分析的意义depending on the level of measurement 

adjusting data 

re-specifying variables 啥意思? 

transforming scales -standardizing z-scores

weighing cases/ respondent (不经常用)啥意思? to account for representativeness.

hypothesis testing

1.two-sided tests (等于or不等)

Ho: 变量的参数是等于某值 the parameter (mean, proportion )of the variable is equal 

H1:the parameter of the variable is different

2.one-sided tests (大于小于)

Ho: 大于等于 or 小于等于

H1:< or >

结果可以有两种,一种是test statistic 另一种是p-value.(test statistic 越大,p-value就越小,Ho的可能性就越小) 见图 

所以,test statistic >critical value 就拒绝

p-value <0.05 拒绝 

spss中,p-value 显示为“Sig.”

p≤0.05,Ho is rejected → the parameter is significantly different from xx.

0.05<p≤0.1,Ho is rejected but marginally → the parameter is marginally significantly different from xx.

p >0.1, Ho is not rejected → the parameter is not statistically different from xx.

test statistic 

test statistic > critical value, Ho is rejected 

diagram 'when to use which test?'

图~

怎么用这张表? -3 questions:

1. what is the dependent variable?

2.what is the measurement level of the dependent variable? 

3.what and how many samples does the hypothesis involve? 

-one sample: 比较给定组的参数 (和某一值~)

-independent samples:比较两个组的参数。eg. man/woman, branded/unbranded

-related samples: compare the responses of the same individual amongst each other. 其实是同一个样本 对不同问题的回答 酱紫?

inferential analysis: one-sample tests. representativeness

推断是否具有代表性,和给定的某一值比较

Ho:mean in the population where the sample came from =2.28

首先,DV=household size ,DV measurement= ratio  sample: one sample (必要步骤)

所以(查看表格),用one sample t-test 

eg2:检验 房屋分布的比例是否和统计数据一致

首先,DV=sample household proportion, DV measurement= ordinal, sample =one sample 

所以用one sample Kolmogorov- smirnov (by hand or excel )

total population 中的cumulative percentage 和样本observed cumulative% 计算absolute difference 

test statistic = 最大的那个difference → K=xx

critical value at 5%=1.36 除以 根号下样本个数 =aa

K 大于 aa →Ho is rejected 显著不同

检验二分法中的比例 the proportion of a dichotomous variable (yes/no)

用Z-test (by hand)

differential analysis:two and more independent or related samples

表格的运用,见onenote

associative analysis: correlations

变量间的关系

when there are 2 variables 

both are metric(interval /ratio ), linear relationship , use pearson correlation coefficient 

one or both are ordinal, use spearman rank correlation coefficient 

r 属于[-1,1]

significant vs. substantive results.

significant 取决于1 “不同”或“相关”的strength、magnitude? 以及 2样本大小 sample size

sig是第一步,relevance是一个主观判断

sig difference or correlation 不能推断出substantive or relevant 

magnitude of the difference =% change in the response of one group from that of the comparision group 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • 出发前,我的心情糟糕透了。也可以说正是因为心情糟糕透了,想逃离,于是有了这趟旅行。(原因在此就不道明,人人都有...
    努努2697阅读 1,286评论 10 9
  • 需要坚持的事情,注定是要失败的!如何避免坚持这种情况出现?读李笑来《为什么你总是“半途而废”》 摘要:三个不需要坚...
    摇摇说说阅读 208评论 0 0