关于机器学习:科罗拉多州立大学发布CSUMLP模型用随机森林预测中期恶劣天气

41次阅读

共计 2947 个字符,预计需要花费 8 分钟才能阅读完成。

本文首发自 HyperAI 超神经微信公众号~

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相干学者联结公布了一个基于随机森林的机器学习模型 CSU-MLP,该模型可能对中期 (4- 8 天) 范畴内顽劣天气进行精确预报。目前该成绩刊已发表在《Weather and Forecasting》期刊上。
关键词:顽劣天气 机器学习 随机森林

天气预报尤其是顽劣天气预报对人们日常工作、生存等方面具备重要影响。Sigma 钻研报告《经济积攒和气候变化期间的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来顽劣天气对寰球造成的损失一直加剧,仅 2019 年,相干灾祸事件造成的寰球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着顽劣天气灾祸破坏性日益减轻,将来相干损失会进一步加剧。因而,精确预测顽劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家陆地和大气管理局 (NOAA) 风暴预测核心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型可能对中期(4- 8 天)范畴内顽劣天气进行精确预报。目前该成绩刊已发表在《Weather and Forecasting》期刊上。

论文地址:

https://arxiv.org/abs/2208.02383

CSU-MLP 概述

美国顽劣天气预报个别是由上文提到的 SPC 应用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型可能提前 1-2 天预警特定顽劣天气及产生的地点,但在提前 3-8 地利只能预警产生的地点,无奈预测是哪种顽劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)工夫范畴内的预报变得更加精准,但对于中长期工夫范畴来说,预测成果却没有较大改观。这种背景下,机器学习逐渐在气象学畛域失去利用。

本项钻研 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自寰球几何预报零碎 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集蕴含了美国外乡 20 年的具体历史天气数据。钻研人员从中选取了 9 年(2003 年 -2012 年)的数据作为本次中期预报钻研训练集,选取了 2 年 (2020 年 -2022 年) 作为测试集。

随机森林算法

本钻研基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本钻研中,就是通过顽劣天气特色输出,遍历整个决策树从而得出顽劣天气的预测后果。

因而,在随机森林算法中,顽劣天气的特色输出的尤为重要,在本钻研试验中,钻研人员从上述提到的训练集中提取了 12 个与顽劣天气有关联的特色变量用作训练,具体特色变量如下表所示。

不过,在 GEFS/R 数据集中,这些特色变量分辨率并不统一,为此钻研人员进行了插值解决,将其对立到了 0.5 度网格间距 (dergee grid spacing)。

特色工程

本钻研中除了采纳随机森林进行中期顽劣天气预测剖析能力,还简要探索了特色工程。所谓特色工程指一种解决数据的技术,用于从观测事件四周收集特色,并将其转换为机器学习算法能够应用的模式。具体到本试验中,钻研人员次要提出了两种办法进行简化特色,包含空间均匀 (spatially averaging the features) 和时滞办法 (time-lagging) 等。

空间均匀是指在钻研人员提出将每个预测空间点上所有特色变量的值取平均数,这样能够缩小噪声数据的烦扰从而进步模型性能。具体过程如下图所示。

时滞办法是指在预测或建模过程中,将过来一段时间的观测数据提早利用于以后工夫点的预测或建模中。

它基于假如,过来的观测数据能够提供无关以后状态和将来趋势的有用信息。本次试验中,钻研人员应用了时滞办法来裁减 GEFS/R 数据集的规模,但这个过程并不会对模型产生额定的计算量。

试验后果

钻研人员应用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测后果,并与 SPC 生成的人工预报进行比照。相干试验结果显示,在中期预报范畴内,基于随机森林的预报零碎的准确性及预报地区范畴都要优于 SPC,如下图所示。然而,随着工夫范畴的增大,二者的预报能力都会有所降落。

a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被暗影笼罩的局部指的是顽劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的部分预报,图片的左下角和右下角别离为评估天气预报准确性的预测技能得分 BSS 和评估部分天气预报代表性的观测覆盖率。

对此,钻研人员总结,整个预测零碎的技巧性和精确性都有了很大的晋升,次要是因为基于随机森林的预测零碎在间断概率以及低概率轮廓(示意顽劣天气的预计中,概率较低的区域所造成的轮廓)两方面预测能力很强。

此外,钻研人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探索了特色变量对顽劣天气预报很重要。后果如下图所示。

尽管上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中钻研人员作出了初步判断:这些不同的特色变量会被模型进一步学习并用来进行顽劣天气预报。这也阐明,基于随机森林的预测零碎通过进一步的训练欠缺,是具备肯定可信性和实用性的。

当然,在本试验过程中,钻研人员也提出了基于随机森林的预测零碎仍有很多须要欠缺的局部。比方,CSU-MLP 还须要再退出 SPC 人工预报的预测数据,进一步晋升机器学习预报后果的可信性。

AI 智能气象新阶段或将到来

人类始终致力于了解并预测世界,其中较为胜利的例子之一便是天气预报。古时候,人们大多根据生存教训来进行预报,如「晚霞不出门,朝霞行千里」等,到古代,科学家们开始应用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学倒退的现阶段,AI 的退出大大加强了天气预报的准确性。据外媒报道,近几年瑞士的气象钻研人员通过引入 AI,胜利预测到闪电的工夫和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收买天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以破费如此大手笔,也正是打算将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头曾经非常看好 AI 在气象学上的后劲,并已开始着手布局。

不难预测,尽管影响天气变动的客观因素成千上万,天气精准预报的难度仍然较大,但随着 AI 和气象学交融的进一步加深,一个由 AI 定义的智能气象新时代或将减速来到。

P.S.:

本篇论文 code 及数据集后续会公布在 HyperAI 超神经官网 Hyper.ai,感兴趣的搭档们能够继续关注~

正文完
 0