红酒数据集分析(天池)

红酒数据集分析

天池项目链接:https://tianchi.aliyun.com/notebook-ai/detail?postId=4662

数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Wine+Quality

github:https://github.com/oliveeeeee/Machine-Learning-Project


主要目的在于展示数据分析的常见python包的调用,以及数据可视化。主要内容分为:单变量,双变量,和多变量分析。

相关python包:matplotlib.pyplot,seaborn


数据样本观测

1、数据量

red:(1599, 12)

white:(4898, 12)

2、数据类型

均为数值型。

3、缺失值

无缺失值。

4、统计描述


单变量分析

1、箱型图:看单变量的分布,常用来找异常值

2、直方图:看单变量的分布,是否正态,是否左右偏,有几个高峰等

3、解读

品质:

品质的评价范围是0-10,这个数据集中范围是3到8,有82%的红酒品质是5或6。

酸度:

这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下面对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关,fixed acidity比volatile acidity和citric acid高1到2个数量级(Figure 4),比free sulfur dioxide, total sulfur dioxide, sulphates高3个数量级。一个新特征total acid来自于前三个特征的和。

甜度:

Residual sugar 与酒的甜度相关,通常用来区别各种红酒,干红(<=4 g/L), 半干(4-12 g/L),半甜(12-45 g/L),和甜(>45 g/L)。 Red数据中,主要为干红,没有甜葡萄酒。White数据中,dry(<4)和medium dry(4-12)较多。


双变量分析

1、多类型箱型图:可用于比较不同类型的分布或按不同类别进行比较。

查看红酒品质和理化特征的关系。

2、热力图:直观展示两两变量之间的相关程度。

解读:

品质好的酒有更高的柠檬酸,硫酸盐,和酒精度数。硫酸盐(硫酸钙)的加入通常是调整酒的酸度的。其中酒精度数和品质的相关性最高。

品质好的酒有较低的挥发性酸类,密度,和pH。

残留糖分,氯离子,二氧化硫似乎对酒的品质影响不大。

3、散点图,线性回归

展示密度和酒精浓度的关系、酸性物质含量和pH的关系。

解读:

密度和酒精浓度是相关的,物理上,两者并不是线性关系。

pH和非挥发性酸性物质有-0.683的相关性。因为非挥发性酸性物质的含量远远高于其他酸性物质,总酸性物质(total acidity)这个特征并没有太多意义。


多变量分析

散点图

观测酒精浓度,挥发性酸和品质三者间的关系,pH,非挥发性酸,和柠檬酸三者间的关系。

解读:

对于好酒(7,8)以及差酒(3,4),关系很明显。但是对于中等酒(5,6),酒精浓度的挥发性酸度有很大程度的交叉。

pH和非挥发性的酸以及柠檬酸有相关性。整体趋势也很合理,即浓度越高,pH越低。


总结

整体而言,红酒的品质主要与酒精浓度,挥发性酸,和柠檬酸有关。对于品质优于7,或者劣于4的酒,直观上是线性可分的。但是品质为5,6的酒很难线性区分。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容