联合循环机组最大输出功率预测
一、摘要
通过相关分析等一系列分析方法来探讨自变量大气温度、大气压力、相对湿度和排气压力与因变量输出功率之间的关系,并采用线性回归算法对数据集进行拟合,得到用于预测输出功率的模型。
分析最终得出结论:大气温度、排气压力、相对湿度三个因素的增大会降低输出功率,其中大气温度是影响最大的,而大气压力增大则对输出功率的提升有少许的促进作用。
二、背景
随着我国电力市场化改革的逐步推进,市场各方需要越来越频繁地参与各种电力交易,对于作为电力供给方的发电厂来说,需要能够定时定量地向购电方供应合同约定的电量,若生产电能无法满足合同要求,则只能从电力市场中另外购买电量以避免违约。如果在运营过程中,发电厂无法对自身的发电能力有一个较为准确的估计,那么就可能面临较大的价格风险,因此,通过对发电厂的各种环境因素对机组的最大输出功率的影响程度进行分析,并构建相应的线性回归模型,希望能帮助发电厂对机组输出功率有更为准确的预测。
三.分析过程
数据来源
该数据集来源于UCI大学公开的机器学习数据,包含一个联合循环发电厂在6年(2006-2011年)中采集的9568个数据,数据采集时机组为满负荷运行。数据集包含5个变量,包括大气温度(T)、大气压力(AP)、相对湿度(RH)和排气真空(V),以及机组的输出功率(EP)。
数据理解
大气温度(T):即环境温度,单位为摄氏度。
大气压力(AP):即环境大气压,单位为千帕。
相对湿度(RH):空气中水蒸汽含量与相同大气压力下饱和蒸汽的比值的百分数。
排气压力(V):即燃机排气的压力,单位为千帕。
输出功率(EP):机组的最大输出功率(满负荷),即在某一运行条件下每小时所能输出的最大电量,单位是兆瓦。
大气温度 排气压力 大气压力 相对湿度 输出功率
14.96 41.76 1024.07 73.17 463.26
25.18 62.96 1020.04 59.08 444.37
5.11 39.4 1012.16 92.14 488.56
20.86 57.32 1010.24 76.64 446.48
数据处理
首先对数据进行描述统计,从得出的表格可以看到,9568个记录中所有变量值都是齐全的没有空值,而且各个变量的范围都是合理的,与实际环境相符,数据质量很高因而不需要进行数据清洗的处理。
特征分析
首先分别画出四个自变量大气温度(T)、大气压力(AP)、相对湿度(RH)和排气压力(V)分别与输出功率(EP)的分布散点图。从下方的四个散点图可以看到只有左上方大气温度与输出功率的散点图,以及左下方排气压力与输出功率的散点图存在较为明显的线性趋势,另外两个自变量与输出功率则不明显。
通过相关系数矩阵继续探究四个自变量与输出功率的相关关系,从下方表格可以看到,大气温度、排气压力与输出功率的相关系数为-0.948和-0.870,均存在较强的负相关,而大气压力、相对湿度与输出功率的相关系数为0.518和0.390,属于弱相关,分析结果与前面散点图的分析结论一致。此外,大气温度与排气压力的相关性为0.844,自变量之间可能存在较强的共线性,具体共线性的强弱后续计算VIF进一步确定。
为了识别某些与预测输出功率没有帮助的变量以简化模型,对自变量进行F检验,从下方的检验输出结果可看到各个自变量的显著性均为小于0.05,推翻预测模型加入该变量无统计学差异的零假设,说明各个因变量均对模型预测有帮助。
构建模型
线性回归模型存在几个适用条件,分别是:
预测残差相互独立。
预测残差满足正态分布。
预测残差满足方差齐性,即方差相等。
若模型预测残差不满足这几个条件,则得到的线性回归模型存在问题,需要改进。
将四个自变量以及因变量用线性回归算法进行模型拟合,得到的线性回归模型信息如下表所示:R2值为0.929,模型拟合数据的程度很高。Durbin-Watson为2.033,在0到4之间,说明模型预测的残差满足线性回归的残差独立性要求。
得到的线性回归模型系数如下表所示,可得模型公式:
非标准化公式:
EP_predict = 454.609 - 1.978T - 0.234V + 0.062AP-0.158RH
标准化公式:
EP_predict_std = -0.864T_std - 0174V_std + 0.022AP_std-0.135RH_std
此外,各个自变量的VIF值均小于10,说明不存在严重的共线性,不需要专门对自变量进行共线性处理。
从下方模型预测结果的残差直方图以及PP图来看,该线性模型的预测残差非常接近正态分布,满足线性回归要求的残差正态性要求。
在下方线性回归模型预测值与残差的散点图中,绝大部分残差均在0两侧较为均匀地分布,且没有明显的变化趋势,满足线性回归模型残差满足方差齐性的要求,但有少数点超出了-3到3的范围,我们将这些点视为离群点,经统计这些离群点对应样本的数量只占全部样本的1%不到,故可将这些样本从数据集中剔除再重新拟合模型,避免对预测效果造成不良影响。
将上图中标准化残差超出了-3到3的范围的离群点从数据集中剔除,并重新拟合线性回归模型,拟合出的模型结果如下,R2值为0.936,比之前的0.929有所提升,Durbin-Watson为2.024,满足残差独立性要求。
新的线性回归模型系数如下表所示,可得新模型公式:
非标准化公式:
EP_predict = 458.730 - 1.998T - 0.228V + 0.058AP-0.160RH
标准化公式:
EP_predict_std = -0.872T_std - 0170V_std + 0.020AP_std-0.137RH_std
新模型残差也满足正态分布以及方差齐性要求。
四、分析总结
从相关分析以及拟合出来的模型可以看出:
大气温度是对联合循环机组的最大输出功率影响最大的因素,且大气温度升高将导致最大输出功率下降,这与专业上大气温度升高导致空气的比容下降,导致燃机吸入空气的质量流量下降而使得燃机输出功率下降的结论是一致的,故寒冷地区的同类型机组在输出功率方面是有优势的。
排气压力升高也会降低燃机输出功率,主要是因为排气压力升高降低了燃机透平的膨胀比,使得透平的做功能力下降造成的,但对输出功率的影响程度远不如大气温度。
相对湿度升高同样对燃机输出功率起负面作用,原因在于水蒸汽比重低于空气,空气中水蒸汽含量升高则质量密度下降,则燃机吸入空气的质量流量下降,从而使得燃机输出功率下降,其影响程度低于大气温度和排气压力。
大气压力升高则空气密度升高,则燃机吸入空气的质量流量上升,因而大气压力升高对输出功率的提升有一定的促进作用,不过作用及其有限。
五、不足与改进
由于SPSS的线性回归无划分测试集的功能,应后续在Python上进行测试,以衡量得到模型的泛化能力。
可尝试曲线拟合来构建预测模型,探讨自变量和因变量之间可能存在的非线性相关。
六、源数据
数据链接:http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant
UE��W�?:?