1、 变量的类型
首先判断变量的类型,变量可以分为数值变量和分类变脸
2、 变量间的关系
然后,对于数值变量可以利用统计学方法做一些探索性分析,如考量数据的集中趋势可以计算均值、中位数等;想考量数据的分散趋势则可以计算值域、方差等
数据集中趋势的测量:均值、中位数、众数
数据分散趋势的测量:值域(最大值-最小值)、方差、标准差、四分位距
是否稳健统计量:(受极端值影响是否大)
是:中位数、四分位差
否:均值、标准差、值域
3、 变量的可视化
接下来,可以考虑将数据可视化展现。考虑不同的情况可以用以下图表来展示:
(1) 数值变量
一个变量:的可视化:直方图、点图、箱图
两个变量:考察两个变脸之间的关系:关联表、相对频率表、分段条形图、相对频率分段条试图、马赛克图;
(2) 一个分类变量+一个数值变量:
并排箱图
4、最后,就根据自己的分析目标再做具体的特定分析和可视化展示
以上思路仅供参考,针对不同的案例有不同的思路。
内容参考来源:慕课--R语言可视化分析