项目地址:https://github.com/Limin-Feng1993/Data_Plume_Shape_and_Particle_Concentration
文章索引:Limin F, Ting Y, Dawei W, et al. Identify the contribution of elevated industrial plume to ground air quality by optical and machine learning methods [J]. Environmental Research Communications, 2020.
由于国情不同,相对于美国,中国的地面气象监测数据的公开程度较低,普通公民很难免费而方便地获得气象站监测的历史数据和实时数据。而高空气象监测数据,也就是气球探空资料,站点更是稀少 (只有几百个),且时间分辨率较低 (12小时一次观测)。国际上主流的、公开的全球气象资料是National Centers for Environmental Prediction (NCEP) 发布的GFS资料和European Centre for Medium-Range Weather Forecasts (ECMWF) 发布的ERA资料。其中,我们主要使用前者的向前预测气象数据,使用后者的向后再分析的历史气象数据,例如如温度、湿度、风、重力位势等。ECMWF将IFS模型输出的数据与世界各地的历史观测数据结合起来,利用物理定律进行再次分析和校正,这个过程称为数据同化,同化形成的全球一致的气象数据集称为再分析资料。
气象参数如风温湿压在不同高度的分布具有垂向切变性,在某些高度范围内又趋向于一致。在白天,地面收到太阳照射加热,产生的湍流使近地面空气内的水汽、大气颗粒物、热量混合均匀,风温廓线 (垂直分布) 趋于一致。风温湿压的垂直分布,决定了高架工业烟囱排放出的烟羽的形状轮廓。例如,当温度的垂直分布在某一高度出现逆温,亦即温度随着高度的增加先下降后上升,对应着风速随着高度的增加先上升后下降,此时烟羽的向上扩散受阻,地面容易受到烟熏 (Fumigation);当逆温层出现在近地面而不是高空时,亦即气温随着高度线性的下降,对应着风速随着高度增加而非线性增加,此时烟羽的向下扩散受阻,烟羽抬升 (Lofting) ,地面空气不会受到高空烟羽的影响,如下图 (图中左边为风廓线右边为温度廓线)。
温度的垂直分布在某一高度出现逆温,主要是上空自由大气的下沉空气 (Subsiding Air) 造成的。上空的空气温度较低,下沉时气团绝热增温,覆盖在底层空气上方,形成逆温层,抑制近地面排放的空气污染物的扩散,如下图。
有两种气象参数的垂直分布比较罕见,但是却对地面空气质量有重要影响,分别是典型不稳定大气与典型稳定大气。一种是风速较小,风速随着高度的变化不明显,对应着气温随着高度的增加线性减小,无逆温层的出现,常见于白天,大气不稳定,地面加热产生的湍流剧烈,此时烟羽成链条状不规则运动 (Looping),对地面空气质量有益,适合烟羽内大气颗粒物的扩散消亡;另外一种是中性大气 (Neutral/Stable Air),气象因子变化稳定,趋于一致,风速较大,对地面空气质量的影响是把双刃剑。一方面,风场垂直方向上一致,有利于烟羽在高空中的横向传输,扩散距离较长;另一方面,当烟羽扩散至下风向时,如果遇到热内边界层 (Thermal Internal Boundary Layer, TIBL) 时,烟羽易向下扩散,造成下风向区域受到烟熏,如下图。TIBL常见于在水面和陆面温度差很大的海岸带或大湖沿岸。通常海面上大气湍流较弱,接近于中性大气,当冷海面的空气进入暖陆地之后和地面接触的空气受到加热而呈超绝热状态,湍流增强并有对流湍流产生。这时形成具有对流混合性质的热内边界层,其内部湍流活跃。
由于烟羽的轮廓与气象因子的垂直分布密切相关,而精确而高分辨率的高空气象资料又稀缺,因此烟羽轮廓可以替代某些气象参数,来预报地面细颗粒物 (PM2.5) 浓度。烟羽的轮廓可以由相机拍摄得到,白天可以用普通相机,夜间需用远距离红外夜视成像仪 (价格昂贵常用于海事船舶)。而相机的拍摄可以随时随地,且时间分辨率可达分钟级别,超过公众可获得的公开小时气象数据。相机的拍摄可以联网实时对外公开发布的,每个公民都能方便的获取。
2019年3月,我们在日照市工业区进行了为期一个月的观测,使用的设备是一台价格为399元的定时拍照相机,设定拍照频率为30分钟一次拍摄,观测站点经纬度为 (32.124°N, 119.311°E),镜头的对焦是日照钢铁厂的烟囱排放的烟羽。PM2.5 监测站点位于观测站点山东钢铁厂内。如下图,根据卫星影像,可见的高架源烟可传输超过十公里的距离。
第一步,手动对烟羽的形状轮廓进行标注。虽然理论上机器学习可以自动识别出图像中物体,例如识别草地上的动物等,但是机器学习只能赋予该物体的标签或属性信息,例如“猫”、‘桌子’等。最近有学者和技术人员提出基于深度学习的图像边缘和轮廓提取方法,但是具体到形态轮廓随时都在变化的烟羽,自动深度学习可能表现不佳。为了保证准确度,我们仍然采用的人工手动标注。标注时需要用特殊软件,自动记录标注的点位置信息,以便后续计算烟羽轮廓多边形的长度。标注软件选择在GitHub网站上已经开源的Labelme (https://github.com/wkentaro/labelme),标注完后导出为Json文件,Json文件格式可以转化为文本文件 (txt),然后直接读取文件里标注点的位置信息(X, Y),见代码本1-Abstract_Object_in_Image.ipynb。
第二步,计算标注点围成的烟羽轮廓的多边形长度 (Polygon Length, PL),亦即烟羽轮廓多边形的最大内接矩形的距离最远的两个顶点之间的距离,可以简单的将其理解为对角线的长度。由上图几张代表性照片中PL的数值和PM2.5的数值可以看出,二者是负相关的。见GitHub项目主页代码本,2-Calculate_Plume_Area_Length.ipynb。
需要注意的是,Python读取图像的原理是将其转化为像素矩阵,是上下颠倒的,见下图。
第三步,画出烟羽轮廓多边形长度和地面颗粒物浓度的关系,代码见3-Plume Shape and Particle Concentration.ipynb。可以初步判定,烟羽轮廓长度和地面细颗粒物浓度是负相关的关系,但是这种负相关是非线性的。
第四步,利用决策树模型,来预测PM2.5浓度,选取的自变量集合, 亦即特征为烟羽长度以及1000 hPa、950 hPa、850 hPa三个等压面高度的ERA气象再分析资料 (U、V、T)。之所以选取这三个等压面高度层,是因为边界层高度基本上从几十米到2000米左右变化。见下图,由决策树的两个主干 (红色和蓝色圈出)可知,当经过边界层顶的纬向风U_850是大于5m/s的强东风 (来自海上) ,且烟羽的长度较小时,地面PM2.5浓度较高,可达重度污染水平;而当边界层顶的纬向风U_850偏向于西风 (来自陆地),且烟羽的长度较大 (大于两倍的烟囱高度,烟囱高度=385 Pixels) 时,地面PM2.5浓度较低,近地面空气较为清洁。见代码本:4-Decision Tree predict PM2.5 concentration。