R语言-白葡萄酒数据集探索

查看数据基本情况

data<-read.csv("/Users/xxx/Desktop/whitewine.csv",sep=",",header = TRUE)

head(data)

class(data)

str(data)

library(mice)

library(VIM)

md.pattern(data)

aggr(data,prop=F,numbers=T)


head()
查看数据集缺失值

可以看出缺失两个,那么就要去掉

data<-data[-which(is.na(data[,2])),] aggr(data,prop=F,numbers=T)

单变量分析

由于我们最关注葡萄酒质量分布情况,所以对质量进行单变量分析

ggplot(aes(x=quality),data=data) + geom_bar()+scale_x_continuous(lim=c(3,9),breaks = seq(3,9,1))

质量的单变量分析

呈正态分布,很好

双变量分析

ggplot(data,aes(x=quality,y=density,group=quality))+geom_boxplot()  


质量和密度之间的关系

糟糕,看到了离群值,删去

ylim1<-boxplot.stats(data$density)$stats[c(1, 5)]

ggplot(data = data,aes(x=quality,y=density,group=quality))+geom_boxplot()+

coord_cartesian(ylim = ylim1)


多变量分析

ggplot(aes(x = alcohol, y = density, color = factor(quality)), data = data) +

  geom_jitter(alpha = 0.2) +

  scale_color_brewer(palette = "Blues") +

  geom_smooth(method = "lm", se = FALSE,size=1) +

  ylim(0.985, 1.005) +

  labs(y = 'Density',x = 'Alcohol') +

  ggtitle("density VS alcohol VS quality")


由于quality是等序变量,所以用不同颜色的渐变表示

ggplot(data,aes(x=alcohol,y=density,colour=factor(quality)))+geom_point()+facet_wrap(~quality)


想要原始数据,就在下面点个喜欢吧,然后留言就可以了~

6.1日更:最近事多没上简书,忽然发现好多人要数据集。

由于原创不易,你点个喜欢,然后就可以私信向我要数据集了,算是对我的支持吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 简介 文章较长,点击直达我的博客,浏览效果更好。本文内容基本是来源于STHDA,这是一份十分详细的ggplot2使...
    taoyan阅读 51,402评论 7 159
  • 盘珠子最忌讳的就是急功近利,你只能慢慢来、一个过程一个过程的,随着珠子的变化也可以同时得到一种精神的愉悦。 另外,...
    史上最全小叶紫檀百科阅读 835评论 0 0
  • 偏态分布为统计学概念,即统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函...
    雪绒花与蚊子阅读 80,137评论 2 22
  • 我的外婆今年82,一个中年丧夫、半生守寡、目不识丁,独自养大四个儿女的田沟村妇女。 这一路的艰辛自...
    薄荷1986阅读 498评论 2 0
  • 胖胖胖 肚子这么大! 我要减肥!!减肥!! 再不减肥就胖一整个青春了! 我也想美美的(ฅ>ω<*ฅ)
    一朵芒果云阅读 325评论 0 0