多元统计分析
列联表分析:简单情形下可以视为p的假设检验,不涉及此部分
对应分析
多元统计分析-对应分析
对应分析(correspondence) 由J.P.Bepzecri 于1970年提出,是在因子分析基础上发展的多元统计方法,也称R-Q分析。通过分析属性(attribute-categorial)构成的列联表来揭示变量之间的关系,可以用列联表显示。对应分析利用降维的思想对行和列同时处理来达到简化数据结构的目的。最后列联表的行和列中各属性的比例结构会以点的形式在低维空间中表示出来。
对应分析
- 目的:降维与可视化 (dimensional reduction and perceptual mapping)
- 数据类型:行与列都是名义变量(nominal measurement scales) e.g:年龄大中小,产品ABC
- 数据汇总:列联表(contingency table)
e.g
Product | ||||
---|---|---|---|---|
Age | A | B | C | Total |
Young(18-35) | 20 | 20 | 20 | 60 |
Middle(36-55) | 40 | 10 | 40 | 90 |
Senior(56+) | 20 | 10 | 40 | 70 |
Total | 80 | 40 | 100 | 220 |
-
可以解决的问题(Marketing Analysis)
- 在打分问题中(Likert scale,levels),一些需要打分的类别是否相近,因此衡量的是同一种preference,与Factor Analysis中降维解决的问题背景一致。
- 一些属性是否相似,衡量的是产品的同一方面?
- 识别不同产品之间的竞争关系
- 划分消费者群体
- 行与列之间,e.g 年龄与产品选择之间 是否相关?
实现步骤及原理
-
假设
行列属性之间没有关系。
:行列属性之间有关系。
-
卡方检验
r:行数,c:列数
- Case 1: 实际观察到的频数等于在原假设之下的频数,行i与列j没有关系
- Case 2: 实际观察到的频数大于在原假设之下的频数,行i与列j有正关系
- Case 3: 实际观察到的频数小于在原假设之下的频数,行i与列j有负关系
-
衡量相关性(measure of association)
-
列联表第ij元的值:
其中是表中观察到的频数,是在原假设下的频数。
在表中各即为:
Product Age A B C Young(18-35) -0.389 2.752 -1.393 Middle(36-55) 1.271 -1.573 -0.142 Senior(56+) -1.081 -0.764 1.450
-
-
计算行与列各属性/种类的坐标以便画图
-
假设
- 各对象之间能够比较 e.g :产品ABC可比
-
,代表行的指标的位置,,代表列的指标的位置。
对于任意两行可以用, 表示,其中c为列数,如果与的距离相近,则可以认为与相近。
-
降维
目标:使用更少的维度表示与,同时使
-
-
奇异值分解 Singular Value Decomposition
对矩阵使用奇异值分解,其中,n为总体频数。
e.g
其中
SVD:
此处
中有2个非零奇异值,因此选取维数为2。
奇异值分解
在矩阵M的奇异值分解中
-
计算坐标与
-
计算占比矩阵
与为对角矩阵,对角线上元素代表每一行或每一列的占比。
,
此例中,
-
计算坐标,此例:行坐标Y(年龄 Young,Middle,Old),列坐标X产品ABC:
-
-
相关指标
MASS:行与列的占比,即与,反映了每行与每列在样本中的重要性。
-
Inertia 总惯量: 惯量就是奇异值的平方,用于说明对于分析各个维度的结果能解释列联表中两变量联系的程度。所有维度惯量的总和则可以用来表示总信息量(total variance)的大小,通常维度的选取使总惯性的和大于80%为好。
Variance of the row and column coorddinates weighted by masses(importance)
-
维度的选择:
最大可选维度:
- 根据可解释的总差异累计百分比或百分比变化的拐点选择
-
对惯量的贡献:奇异值分解矩阵和 与
- 与因子分析中的载荷矩阵意义相近
- 衡量每一行或列的种类与每个维度的关系
- 利用每个维度相近的行或列种类为维度命名
-
每个维度的解释力
- 与,其中k为维度数目,j为给定的维度,与为坐标。
-
质量 (quality)
- 给定的维度的解释力之和
- 最大值为100
- 显示出模型对每行和每列指标的解释力
- 与因子分析中的communality相似
本例中:
维度1的惯量:
维度2的惯量:
总惯量:
由维度1解释的总差异百分比:(proportion of variance explained by dimension1)
由维度2解释的总差异百分比:(proportion of variance explained by dimension2)
对惯量的贡献:
行对应的组 | 维度1 | 维度2 |
---|---|---|
Young | 0.726 | 0.001 |
Middle | 0.173 | 0.418 |
Old | 0.101 | 0.581 |
即young(0.726)对维度1主要贡献,middle(0.418)与 old (0.581)对维度2有主要贡献。同时由于符号问题-0.646与0.6752,因此维度2还体现了middle组与old组之间的差异
本例中维度为2解释力为100
-
可视化 perceptual map ——衡量行与列指标之间的关系
使用降维后的坐标 (图的解释性只限于相对位置,而不是图上的绝对坐标,图上点之间的距离没有意义)此例最后将产品ABC与年龄大中小画在图中:
可见年轻人更偏好B产品,中年人更偏好A产品,年长的更偏好A产品。
R语言实现 基于包ca
问题背景
为了跟踪1980年至1983年银行和储蓄与贷款(SL)机构形象的变化,并在一个二维空间中表示它们,向750名随机受访者邮寄了问卷,1980年和1983年的回复率分别为43%和42%,受访者被要求决定在13种具体的金融服务中,选择两类机构中哪一种(或两种)更好。结果以百分比形式储存在列联表中。
数据情况
选项:Bank only in 1980,SL only in 1980, Both bank and SL in 1980,Don’t know in 1980,Bank only in 1983,SL only in 1983,Both bank and SL in 1983, Don’t know in 1983
即在1980年,的受访者认为SL的Checking accounts服务更好,的受访者认为二者服务的质量一样。
R代码实现与结果解读
-
导入包与数据
library(ca) #rownames are the labels of attributes images<-read.csv("images.csv", header = TRUE,row.names = 1)
-
进行对应分析并导出结果
#obj= contingency table 导入的数据为列联表形式 fit<-ca(obj=images)#此处没有规定维度目前 summary(fit) #使用 ??ca 可以看ca包的具体参数选项 也可见本笔记最后
结果解读
此为惯量值与对应的维数,其中value为对应奇异值的平方,为从1到此维数的解释百分比
维数最大为7是因为
本例中选维数为2即能得到解释力大于的结果,同时二维也方便可视化。
行衡量的是服务方面的信息,结果如下:
此结果为每个行指标的mass,qlt: quality表示给定的维度的对行指标解释力之和,其中对Convenient locations的解释度最低为,对Savings return 的解释度最高为。
k=1与k=2代表维度1与维度2每行中对应的坐标,ctr代表每个行指标对维度的contribution
例如Mortgage Loans对维度1的贡献达到了,Savings return 达到了;Checking accounts 对维度2的贡献达到了
同时坐标的正负能够体现两行的差异,比如k=1中Savings return的坐标为1.091,而Checking accounts的坐标为-0.490。
本例中基于维度1与2可解释:
客户将从以下方面区分SL和银行的形象:
- 抵押贷款和储蓄方面的服务(SL还是银行更好?)Services in mortgage and saving 维度1中贡献度较大的行
- 在支票、信用卡、汽车贷款和安全方面的服务(SL或银行更好?)Services in checking, credit cards, car loans and safety 维度2中贡献较大的行
列衡量的是随时间对两种服务的感知状况,结果如下:
解释方法类似。
-
每行每列的新坐标
cacoord(fit,type="principal",dim=1:2)#代表只有2个维度
-
将其绘制在二维平面中
plot(fit)
- 通过图形自己进行解读 从时间维度:80-83,相对位置等 <u>注意:实际距离没有有效信息</u>
结果解读
- 该图说明了银行和SL之间的主要差异以及1980年至1983年的变化情况
- 银行被认为在支票账户、信用卡、汽车贷款和有用的服务方面更好。S & Ls被认为在储蓄和抵押贷款方面更好。
- 两类机构在非金融属性方面大致相当:有经验的人、反应能力、方便的地点和时间、最安全、最快的服务、以及提供有用的信息。
- 从1980年到1983年,S & Ls的13个属性的整体形象比银行的形象变化更大,因为前者的差距更远。
- 就所有13个属性的组合而言,银行和S & Ls在1983年被认为比1980年更相似,因为它们的位置在1983年比1980年更接近。
参考资料
HKU STAT 3613 Marketing Engineering Lecture Notes Chap5
百度百科对应分析定义
附录
- ca包具体参数,不设置nd会出现1-最大维数的结果。
2.ca包的结果 可用fit$读取