笔记内容:
- CA(Correspondence Analysis)
- CA的R实现、作图及解读
- 与logistic regression的差别
CA(Correspondence Analysis)
如果没有明确的假设,研究目的为探究列联表数据中行列两种变量的关系,那么分析的结果需要给出两个结论:两种变量是否确实存在关联,以及是什么变量与什么变量存在关联,其强度如何。
首先需要进行卡方检验(the test of independence(chi-square test),验证行变量与列变量是相关的。
CA (Correspondence Analysis)为PCA的一种延伸,适用于探究分类变量之间的关系。它同样提供了二维plot, 将变量之间的关系总结并可视化。其input为二维的contingency table(2 * 2, r * c),目的为探究行列的变量是否存在关联。
CA的R实现、作图及解读
使用factoextra
,fviz_ca_biplot
包可以绘制symmetric plot(French plot), 将行列变量均Plot在同一个图中。用于对行列变量的相关程度有一个宏观的了解:行变量(列变量)两点距离越近,代表其相似程度越高。但是其只能解释行变量(或列变量)之间的相似程度,不能直接解释行列变量之间的距离。如下图所示:
使用fviz_ca_biplot(arrows= ..)
绘制Asymmetric biplot, 将行列各点与原点的连线作为向量。行列两向量之间的夹角越小,代表这两个变量关联程度越大,如下图所示:
详细可见这个例子
以及一些参考资料: Correspondence analysis (CA)
与Logistic regression的关系
处理分类型变量最常用的是logistic regression,但并不意味着不管拿来什么数据都往regression里塞。如下表所示,CA与Logistic regression有适用范围。
但是用"independent Variable & dependent Variable" 来形容待分析的变量并不严谨。在一些情况下有明确的假设,研究目的为探究自变量对因变量的影响程度,或者预测因变量的变化。也存在一些情况,并没有明确的假设,不能把两类变量简单归为自变量与因变量。研究目的为探究两类变量比较宏观的关联程度。可以参考这篇文献。