目录
1 数据描述
2 数据预处理
应用日期计算函数
应用匹配查找函数
逻辑判断函数
Python缺失值处理
3 数据分析及可视化
3.1描述统计
3.2 热力图
一、待分析的大数据描述
本例选取的数据集air.xlsx,数据集显示的是2014年至2018年全国部分城市空气污染物情况。数据集中有557425个样本,样本由time(时间)、city(城市)、AQI、PM2.5、PM10、SO2、NO2、CO、O3、primary_pollutant等多个属性。
二、对已描述大数据的预处理
应用日期计算函数
将time(时间)字段拆分为年、月和季度:
=YEAR(A2) 返回对应日期的年份
=MONTH(A2) 返回对应日期的月份
应用匹配查找函数
LOOKUP函数:将查找值返回一行或一列进行查找,返回一行或列中相同位置的数值。
把日期对应的月份在数组{1,4,7,10}里查找,如果可以匹配,就返回当前月份在数组里的位置,如果月份在数组里匹配不到,就返回小于等于当前月份最大值所属的位置。
逻辑判断函数
通过查阅相关资料,发现根据AQI空气质量指数可以讲空气质量划分为优、良、轻度污染、中度污染、重度污染和严重污染6种污染程度类型。
因此,应用IF函数在air.xlsx数据集中新增一列pollute_type(污染程度)。
IF函数:判断是否满足某个条件,如果满足返回一个值,如果不满足则返回另一个值。
缺失值处理
缺失值统计:
统计缺失值可知,只有O3和primary_pollutant(主要污染物)存在缺失值,其中,O3有345908条缺失值,primary_pollutant有28837条。
用O3列均值填充O3列的缺失值,将primary_pollutant列的缺失值用“未知填充”。
三、对已预处理大数据的分析
A、全国空气质量最佳的TOP20个城市
B、全国PM2.5污染最严重的的30个城市(条形图)
C、城市空气质量情况(以北京为例)
D、空气质量成分相关系数热力图
Python数据分析(描述统计)
Excel数据透视基础图表
由图11可知,全国PM2.5污染最严重的的城市是鹤壁,PM2.5均值最高为306,污染最严重的的30个城市排名最末的是焦作,PM2.5均值为71。
由图12可知,2013年北京一年中有190天处于重度污染,占全年的76%,空气质量为优的占14.6%。
Python可视化
(1)计算AQI空气质量指数和各种成分指标值的相关性
(2)然后通过计算出的相关系数,绘制热力图
由绘制的相关系数热力图,由可知空气质量指数AQI与PM10的相关性最大(0.81)、NO2(0.56),与O3略呈负相关性。