气象预测
中长期预报
- 全球气象预测开源大模型 OpenCastKit:基于 FourCastNet 和 GraphCast 论文构建了一个新的全球AI气象预测项目。
短临预报
数值计算和深度学习是降水临近预报的两类主流方法,但均存在明显的缺陷。数值计算方法难以有效建模降水过程的时空多尺度特征,同时受到预报累积误差的制约,预报时效往往在一小时以内。深度学习方法虽然擅长建模非线性系统,但统计模型存在固有的小样本过平滑问题,预报求解过程缺少物理守恒规律约束,生成的数值场模糊失真严重,难以提供有业务价值的极端降水预报。
- NowcastNet:数据驱动与物理驱动结合。首先设计了中尺度演变网络,用以建模平流运动等物理性质更显著的中尺度降水过程,并基于物质连续性方程(即质量守恒定律)设计了神经演变算子,端到端模拟降水过程中的十公里尺度运动,并通过反向传播最小化预报累积误差。其次,研究团队提出了对流尺度生成网络,以中尺度演变网络预测结果为条件,通过概率生成模型进一步捕捉对流生消等混沌效应更显著的公里尺度降水过程。
- LDM/LDCast:基于latent diffusion model。
- DGMRNet:
气象站预报
自动气象站已经遍布全球,它们能够以可控精度采集近地面时序数据,以分钟粒度实时记录全球的气象变化,而所需费用远低于雷达和卫星。但这些分布零散的自动气象站所观测到的只是在时空中不断变化的全球气候系统的局部现象,要把所有气象站的观测结果联系起来才能了解气候变化规律的全貌。
- 清华王建民、龙明盛团队提出全球自动气象站预报的统一深度大模型:Corrformer,首次实现了使用统一深度模型完成全球范围内数万自动气象站的协同预报,可以为近地面气象要素提供高精度的短期预报结果,同时自动推理不同尺度区域内的天气过程。
- MetNet-3:不同于许多机器学习模型使用传统方法(例如,NWP 的数据同化)生成的大气状态作为数据输入,MetNet使用对大气的直接观测来进行训练和评估。优点是更高的保真度和分辨率,然而数据来自不同高度的各种传感器,包括地面气象站和轨道卫星,并且具有不同程度的稀疏性。例如,来自 NOAA 多雷达/多传感器系统 (MRMS) 等雷达的降水估计是相对密集的图像,而位于地面的气象站提供诸如温度和风等变量的测量值,只是分布在一个地区的点。为此,MetNet-3 的关键创新是一种称为致密化(densification)的技术,它将数据同化和模拟的两步合并到神经网络中。可生成时间分辨率为 2 分钟、空间分辨率 1km 的 24 小时预报。因为输入数据的稀疏性以及输入-输出的不对等,无法采用自回归方式预测,似乎是同时预测多时间步。模型由ResNet blocks和上采样/下采样层构成。
数据格式
Grib格式及工具库
pygrib · PyPI:较旧,易安装
grib2io · PyPI:较新,难安装
NetCDF格式
数据大小主要取决于观测数据的类型以及模型的分辨率,最后得到的数据为(EC数据)大概为130亿变量/小时。主要卫星数据大,因为一般是全球/大范围覆盖。要按0.25°算,格点数大概3千万(720*1440*30
)。
数据维度:
- 观测场:原始观测数据(卫星、雷达、气象站) 通过预处理成观测场数据。
- 分析场:再经过数据同化输出为分析场。
- 再分析:分析场(可能有观测误差)和预报系统(如EC)的模拟数据可能有差别,将分析场和模拟数据再次分析同化得到再分析数据(如ERA5)。
时间维度:
- 零场:用于数值方法/AI模型输入的起始场,比如以当前时刻预测6H之后的气象,则当前时刻的气象数据为零场。
- 预报场:同上,6H之后的气象数据为预报场。
- 实况场:气象预报/推理时的零场,ECMWF的ERA5气象数据有~12H延时,NCEP GFS有~6H延时,因此实况场多为分析场(约1H时延)。
地理维度:
- 全球场:全球零场、全球预报场,指全球范围。
- 区域场:区域零场、区域预报场,指区域范围。
- 站点:气象站、观测站点、风力发电/光伏发电场站。
模型
参考资料:
- 海洋环境数据处理与质量控制规范-第 2 部分:海洋气象
- 熊安元,赵芳,王颖,等.全国综合气象信息共享系统的设计与实现.应用气象学报,2015,26(4):500512