处理两个分类变量的问题
比如:喝不喝牛奶和感不感冒是否有联系?
产品等级和生产地有没有关系??
独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立
这里我用python来演示一下
import pandas as pd
import numpy as np
import scipy.stats as stats
dict_ = {'甲': [52, 64, 24,],
'乙': [60, 59, 52,],
'丙': [50, 65, 74]}
tab = pd.DataFrame(dict_, index=['一级', '二级', '三级'])
tab
chi2, p_value, df, stat_info = stats.chi2_contingency(tab)
# chi2 卡方值
# p_value p值
# df 卡方检验自由度
# stat_info 统计信息
print(p_value)
我们关注p_value,打印出的p_value
我们令α=0.05,p_value<α,所以拒绝原假设H0,接收H1,即地区与原料等级之间存在依赖关系,原料受地区影响。
列联表相关的测量
那列连表的相关性测了,那么相关性有多强呢?
通常列联表中的变量是类别变量,它们所表现的是研究对象的不同品质类别,所以,可以把这种相关称为品质相关
有几种相关系数可供选择
φ相关系数 是描述2×2的列联表数据相关程度最常见的一种相关系数。
如果相关系数为1则代表x与y完全相关,φ绝对值越大则说明变量x与y的相关程度越高
列联相关系数
V相关系数
列联表需注意得问题
列联表方向
表中数据显示,总共调查了225人其中制造业145人,服务业80人。在制造业被调查者中以物质报酬为价值取向的有105人,占该群体的72%,以人情关系为价值取向的有40人,占该群体的28%。而在服务业被调查者中,以物质报酬为价值导向的人有45人占该群体的56%,以人情关系为价值取向的有35人,占该群体的44%,数据表明,与制造业相比,服务业就业人员更注重人情关系,人的职业背景不同,工作的价值观有可能不同
但是有的时候也有例外,如果因变量在样本内的分布不能代表其在总体内的分布,例如为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时仍然以自变量的方向计算百分表就会扭曲实际情况。例如社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响,该区域有未犯罪青少年10000名,犯罪青少年150名。如果按总体分布来取犯罪案例和未犯罪案例数量太少无法满足对研究的需要。那么对犯罪青少年的抽样比扩大。
卡方分布的期望值准则
**用卡方分布进行独立性检验,要求样本量足够大,特别是每个单元中的期望频数不能过小,否则应用卡方检验机会得到错误的结论 **
- 如果只有两个单元,每个单元的期望频数必须是5或5以上
-
倘若有两个以上的单元,如果20%的单元期望频数小于5则不能应用卡方检验