关于机器学习:借助计算机建模及-eBird-数据集马萨诸塞大学成功预测鸟类迁徙

28次阅读

共计 2577 个字符,预计需要花费 7 分钟才能阅读完成。

本文首发自 HyperAI 超神经微信公众号~

内容一览:近日,英国生态学会期刊《Methods in Ecology and Evolution》上公布了一个新的预测模型 BirdFlow,其可能解决生物学目前最艰难的挑战之一:精确预测留鸟的静止轨迹。尽管该模型目前仍在欠缺中,但钻研人员称可能在一年之内向公众凋谢,并投入使用。本文是对这项钻研的介绍和解读。
关键词:BirdFlow 天然爱护 概率模型

鸟类迁徙是一个令人着迷的天然景象。据理解,世界上近五分之一的鸟类会因滋生和越冬而进行定期的迁徙。在生态学中,钻研鸟类迁徙路线等生态法则,对爱护濒危鸟种、保护生态平衡、避免流行病的流传等具备重要意义。

近年来,因为寰球气候变化以及人类流动等因素的影响,预测鸟类迁徙变得更加艰难。近期,马萨诸塞州立大学阿姆赫斯特分校的研究生 Miguel Fuentes 和康奈尔大学的 Benjamin M. Van Doren 等在《Methods in Ecology and Evolution》期刊上发表了一个新的概率模型 BirdFlow,该模型利用计算机建模和 eBird 数据集来精确预测留鸟的航行门路。

论文地址:

https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/…

钻研人员利用 eBird Status & Trends project 产生的绝对丰度预计 (abundance esitimates) 来模仿鸟类挪动,不过其中也有一个问题,过往绝对丰度信息只能显示出每周鸟类的地位范畴,并不能追踪个体。因而在本次钻研中,钻研人员重点解决了这个问题,要害流程如下图所示:

  • Data Preprocessing:预处理绝对丰度预计以产生每周的种群散布;
  • loss function:指定一个损失函数,应用每周散布以及能量老本的代理对潜在的模型进行评分;
  • Model Structure:抉择一个模型构造;
  • Trained Model:通过数值过程优化损失函数以抉择最佳的模型参数;
  • Validation:计算实在鸟类的均匀对数似然和 PIT 值,来验证训练后的模型。

BirdFlow 建模概览

钻研人员应用 ebird R 从 eBird Status & Trends 中下载了 11 种鸟类的绝对丰度估计值,并且这 11 种鸟类还有可用的 GPS 或卫星跟踪数据。

eBird Status and Trends:

https://science.ebird.org/zh-CN/status-and-trends

下一步,钻研人员定义了一个损失函数,该损失函数基于从 eBird Status&Trends 中导出每周种群散布、鸟类在不同地位之间的静止能量老本以及熵正则化项。

在对损失函数优化前,须要先指定一个模型构造,这里钻研人员证实了优化过程只限度在马尔科夫链 (Markov chains) 上搜寻是正当的。因而,他们将鸟类的静止建模为马尔可夫模型,并进行优化,包含应用马尔可夫链参量化和优化算法。

通过以上步骤,钻研人员取得了一个训练后的模型,并对其进行了相干验证。

BirdFlow 验证过程

验证过程分为三局部,别离为超参数网格搜寻 (Hyperparameter grid search)、熵校对 (Entropy calibration)、K- 周预测 (k-week forecasting),具体过程及试验后果如下。

超参数网格搜寻

验证模型阶段,钻研人员执行了一个超参数网格搜寻,并用搜寻后果钻研了两个问题。

第一,钻研人员通过一个融化钻研,探索了熵正则化项和间隔指数对模型品质的影响。融化钻研后果如下图,能够看到所有的 BirdFlow 模型体现的都比只蕴含鸟类绝对丰度的基准模型要好。

第二,钻研人员通过两种超参数抉择办法探索了模型对超参数抉择的敏感性。试验后果如下图所示,对大多数鸟类来说,应用 LOO 参数(其余鸟类的验证跟踪数据抉择)的模型与应用 tuned 参数(应用该鸟类的验证跟踪数据)的模型体现一样好。其中,性能是以 1 周过渡的均匀对数似然 (log-likelihood) 来掂量的。

熵校对

下图展现了熵正则化对模型校准的影响。在不同熵权重下,5 个版本的丘鹬模型 (American Woodcock model) 的随机概率积分变换 (PIT) 直方图显示了训练模型对丘鹬一周的货色方位预测状况。

能够看到,直方图简直统一,表明模型的校准体现良好。

k- 周预测

图 5 和图 6 展现了不同预测工夫(以周为单位)下的模型性能。钻研人员从超参数网格搜寻中确定了体现最佳的模型,并评估了从 1 到 17 周,此最佳模型绝对基准模型的体现。

图 5(a) 显示了每种鸟类的后果。能够看到,随着工夫的减少,各个鸟类最佳模型的体现能力越来越靠近基准模型。图 5(b) 显示了丘鹬 tuned 模型、LOO 模型和基准模型的差距比照。能够看到,预测工夫内,tuned 模型、LOO 模型体现能力得都比基准模型好。

通过以上试验,钻研人员发现 BirdFlow 能利用 eBird 的每周绝对丰度预计精确推断出个别鸟类的迁徙门路,而且结果显示,BirdFlow 预测的后果远比基准模型要好得多。

基于这个成绩,钻研人员认为除了探索鸟类迁徙这个天然景象外,BirdFlow 模型或者还可能用于其余景象的钻研,例如鸟类的中途停留行为及其应答寰球变动的反馈。

然而,只管 BirdFlow 模型获得了一系列成绩,但北美和欧洲一些研究员则对其应用 eBird 数据库示意质疑,他们认为用观鸟作为收集数据办法并不谨严。对此,BirdFlow 钻研人员示意,该团队正在思考整合进更多数据,比方卫星或 GPS 跟踪鸟类地位的数据。

AI 或将成为天然保护神

BirdFlow 模型的呈现,意味着人类在鸟类迁徙相干钻研上,开拓出了机器学习这一捷径。只管仍处于晚期阶段,间隔天然爱护等落地利用也还有肯定间隔,但这项钻研无疑走漏出一个重要趋势,AI 正在被广泛应用于天然爱护畛域。

卡内基梅隆大学钻研人员开发的 PAWS,能为警察生成一个针对偷猎者们巡逻的路线;康纳尔大学开发的 Merlin 能依据鸟类的歌声和图像识别物种;而 Resolve 开发的 TrailGuard AI 则可能通过辨认可疑偷猎者的图像、收回警报的形式爱护野生动物。

自然生态系统对人类的重要性显而易见,爱护生态系统也火烧眉毛,而随着工夫的推移,AI 又会表演怎么的新角色?欢送大家发散思维,评论区探讨。

正文完
 0