探索性数据分析(EDA),也称描述统计分析,是通过分析数据集已决定选择哪种方法适合统计推断的过程。
~工具包括图形表示和解释。
条形图:用于分类数据。
直方图、点图、茎叶图:观察数值型分布的形状。
箱线图:给出数值型分布的汇总数据,适用于不同分布的比较和拖尾、截尾分布的识别。
正态概率图:观察数据是否近似服从正态分布。
R中作图函数
散点图:plot(),添加趋势线abline().
矩式散点图:pairs(),同时考察三个或三个以上的数值变量间的关系
茎叶图:stem()
条形图:barplot(),作图前需对数据进行分组。main参数为图像添加标题,sub参数添加副标题,beside参数设置为FALSE时,图为分段式,否则为并列式,默认为FALSE。legend.text参数为添加图例说明。
直方图:hist(),将probability参数设置为T,可做频率直方图,默认为F。
箱线图:boxplot(),作图时默认为垂直型,将参数horizontal设置为T,则可做水平型。此图注重于勾勒统计的主要信息,便于对多个连续变量同时考察,或者对一个变量分组考察。
点带图:stripchart(),对于双变量的用法,stripchart(z~t),z变量在t变量上的分布情况,z变量在X轴上,t在Y轴上。
离群值探索
离群值常出现在具有测量误差的数据或总体厚尾分布的数据中。
离群值检验主要有箱线图检验、Grubbs检验,Dixon's Q检验。
1.箱线图检验:观测值距箱底Q1或顶线Q3过远,则可视为离群值。
boxplot.stats()可以返回箱线图的有关统计量,用法bosplot.stats(x,coef=1.5,do.conf=TRUE,do.out=TRUE)
其中$stats五个值为,箱线图下虚线,Q1,中位数,Q3,上虚线。$n返回样本量,$conf返回置信区间,默认是95的置信区间。$out返回离群值。
2.Grubbs检验:用来探索来自正态总体的单变量数据的离群值。
Grubbs检验在做检验前需要先检验数据的正态性。Grubbs检验每次只能检测一个离群值。
R中的outliers包专门做离群值检测。grubbs.test()可以警醒Grubbs检验,用法grubbs.test(x,type=10,opposite=FALSE,two.sided=FALSE),type表示检验类型,10表示检验一个离群值(默认值),11表示检验两个尾部上的两个离群值,20表示在一个尾部检验两个离群值。oppsite表示检验反方向的离群值,two.sided是否进行双边检验。
3.Dixon's Q检验
R中的outliers包里的dixon.test()用作Dixon's Q检验,用法dixon.test(x,type=0,oppsite=FALSE,two.sided=TRUE),type:根据样本量大小选择不同类型,10(37),11(810),21(11~13),22(14及以上)。
各种函数使用
cor():求相关系数
rank():求秩
attach(),detach()
均值、中位数、方差、标准差、五等分、分位数:mean(),median(),var(),sd(),fivenum(),summary()
cut():对数值数据分组。
table():将数据整理成频数表。
rug():此命令可将各个数据竖线描绘在x轴上。
density():可以画密度函数线。
prop.table():prop.table(x,margin),当margin=1时,各个数据占行汇总数的比例,margin=2时,占列汇总数的总比例,省略时,表示占总和的比例。
apply():求边缘概率。
t():转置函数。
多维列联表:table(x,y,z)生成每个z值关于x,y的二维表
探索性数据分析(整理)
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 翻译/编辑/部分原创 Vivian Ouyang 原作者:Sunil Ray 在机器学习中,很多时候你会挣扎于怎么...
- 翻译/编辑/部分原创Vivian Ouyang 原作者:Sunil Ray 在机器学习中,很多时候你会挣扎于怎么提...