关于人工智能:爬取-2-万多张-Flickr-图片莫纳什大学复现-10-年间日本樱花开放的时空特征

2次阅读

共计 3697 个字符,预计需要花费 10 分钟才能阅读完成。

内容一览: 近年来,寰球气候变化形势严峻,由此引发的蝴蝶效应,正粗浅地影响着人类和大自然。在这一背景下,收集数百甚至数千公里范畴内开花模式的数据,理解气候变化如何对开花动物产生影响,成为近年来生态钻研的重要课题之一。但传统的办法通常须要消耗大量经费,且须要较长的工夫进行采样考察,后勤保障工作也面临着重重困难。而近期公布在《Flora》期刊上的钻研,不仅克服了这些问题,同时还揭示出前所未有的细节。

关键词: 时空剖析   智慧生态学   SNS 数据

本文首发自 HyperAI 超神经微信公众平台~

樱花作为日本的国花,在大和文化中有着重要的位置。赏花(Hanami,花见),作为极具特色的民间风俗,已有了数百年的历史。然而日本纵跨纬度约 20 度,全国可分为 6 个气候区,各地气象差别显著, 因而樱花绽开的工夫也各有不同。每值樱花节令,日本的游览网站也会具体展现各地开花状况,供游客安顿赏花工夫。近年来,受到气候变化的影响,日本樱花的凋谢工夫也在一直提前。

为了探索日本樱花的开花模式,了解气候变化对物候学的影响,澳大利亚莫纳什大学的钻研团队,利用 Python API 与 *  计算机视觉 API,通过社交网站 (SNS) 数据来监测日本的樱花凋谢状况,并对试验后果与现实情况进行了比照验证。目前该钻研已发表在《Flora》期刊,题目为「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。

该研究成果已发表于《Flora》期刊

论文地址:

https://www.sciencedirect.com/science/article/abs/pii/S036725…

试验过程:数据集的爬取、过滤及剖析

数据集

本次试验收集樱花凋谢数据的过程能够分为两个步骤:

1. 从社交网站提取图片数据,包含几个不同的间断阶段

2. 利用计算机视觉 API 及人工核验的办法,对数据进行相关性过滤

思考到 API 须要同时对工夫、空间、文本进行过滤,钻研人员抉择了 Flickr 作为数据源。首先,应用 Python API 客户端,通过搜寻关键词「cherry blossom」,在 Flickr 上收集带有地理坐标的相干图片。

其次,设置 Bounding Box 为 31.186°N-46.178°N, 129.173°E-145.859°E,以确保图片是在日本拍摄。 工夫范畴设定为 2008 年 - 2018 年,以排除 COVID-19 导致的寰球旅游业降落对数据的影响。

而后,钻研人员借助从 gadm.org 获取的日本天文边界进行遮罩解决,从而过滤这些数据,最终取得 80,915 张图片。

2008 年 1 月 1 日至 2018 年 12 月 31 日 Flickr 上搜寻定位在日本的「cherry blossom」图片

1、2 月份(蓝色) 示意秋季降临前的樱花初放;

3-5 月份(绿色) 示意记录秋季次要樱花盛开期的摄影数据集中度;

10-12 月份(粉色) 则表明了在秋季尤其 11 月达到顶峰的乏味景象。

只管 Flickr 的图片通过搜寻关键词「cherry blossom」进行了限度,但 SNS 内容依然可能会与搜索词谬误关联,因而须要验证。

对此,钻研人员将所有图片提交至 Google Cloud Vision AI, 该 API 能够依据每张图像的视觉内容,为其生成了描述性文本标签,从而对单个数据点相关性,主动进行 double-check。

Google Cloud Vision AI 应用事后训练好的机器学习模型,在预约义类别中为图像调配标签。此外,钻研人员还对样本数据进行了额定的手动核查,如下表所示:

表 1:Tokyo-filtered 数据集中,各阶段的图像数据

B 列: 在 Flickr 搜寻「cherry blossom」返回 28,875 张图片,这些图片地理坐标都位于东京地区的行政区域内

C 列: 计算机视觉 API 为此数据集返回的文本标签及其绝对频率。从文本标签过滤器返回的图像中,有 21,908 张被计算机视觉 API 标记为「cherry blossom」,但因为局部图像也被标记为「autumn」或「maple tree」,因而被剔除后,最终失去 21,633 张图像

D 列: 后果图像随机选出用于人工查看的样本

E 列: 经人工查看确认为樱花的图像数量

F 列: 每月主动解决办法(计算机视觉和标签剖析)的预估精度,计算方法为 E/D

G 列: 利用该精度,计算 2、3、4 月总共拍摄到的樱花图片数量,计算方法为 C*F

评估办法

为了预计樱花的盛开日期,钻研人员为数据集中的所有图像生成了以天为单位的工夫序列,而后 用 7-day width 的三角挪动平均指标 (triangular rolling average) 进行解决,中心点赋 unity weight,其两侧紧邻的点赋 0.75 的权重*,接下来最靠近的点别离赋 0.5 和 0.25 的权重,以此来平坦由周末(休闲工夫,摄影流动明显增加)和工作日赏花人数不同而带来的拍摄行为 (Photographic activity) 稳定。

得出的图表中所显示的拍摄行为波峰,被确定为是樱花盛开的全盛期(mankai)。

比照验证:预测后果与理论数据统一

日本对樱花盛开景象的记录最早可追溯到公元 812 年,自 1953 年起开始有了官网正式的观测记录。为了验证团队的分析方法,试验团队抉择了东京和京都两座热门赏花城市的数据,并与日本气象公司 (JMC)、日本国家游览组织 (JNTO) 每年颁布的樱花全面盛开日期进行比照,计算出实验所得峰值日与官网颁布日期之间的误差

通过试验,钻研团队得出了日本全国樱花凋谢的可视化时空数据,1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),樱花凋谢首先从南部气象和煦的地区逐步向南方推动,最初由南向北逐步退缩。如图所示:

图 2: 2008-2018 年日本樱花拍摄地点,每张图的周期对应两周

A-C: 樱花图片呈现在日本南部较和煦的地区,图片高度集中呈现在本州岛的东京与京都的城市核心

D-F: 樱花图片减少,开始向本州岛北部延长

G-I: 樱花地位向北扩大,呈现在北海道札幌,东京和京都拍摄行为仍然沉闷,北海道和本州岛北部,樱花拍摄行为更加集中。最初,全国范畴内的樱花照片逐步缩小,由南到北退去。

试验团队将通过解决的东京与京都地区樱花流动摄影日工夫序列的峰值,与 JMC/JNTO 所颁布的日期进行了比拟验证。结果显示东京地区的均方根误差为 3.21 日,京都地区为 3.32 日。 如下图:

图 3:东京地区二者评估的日期比照

左栏:通过本试验办法所预计的历年东京樱花全盛日期

中栏:JNTO 历年报道的东京樱花全盛日期

右栏:误差,即二者相差天数

图 4:京都地区二者评估的日期比照

左栏:通过本试验办法所预计的历年京都樱花全盛日期

中栏:JNTO 历年报道的京都樱花全盛日期

右栏:误差,即二者相差天数

在试验团队的数据中,还揭示出了樱花在秋季凋谢的景象。这在 JNTO 所颁布的数据中并没有正式指出,体现出了 SNS 数据有能力解析小概率事件,揭示异样的物候学景象, 如非季节性凋谢工夫,这对于评估一年四季甚至意外状况下可供获取的花粉花蜜等芬芳资源极其重要。

SNS 数据:为生态钻研提供新洞见

世界气象组织往年 4 月公布的一篇文章显示,2022 年的寰球平均温度比 1850-1900 年的平均值高出了 1.15℃,人类对气候变化的感知较为通畅,动物则分外敏感。在寰球气象变暖的影响下,不仅是日本樱花,我国多地的开花动物也受到了影响。

依据武汉大学樱花观测数据,从上世纪 60 年代开始,武汉大学樱花的始花期显著提前,2000 年之后更是一直冲破记录,一度由 3 月下旬提前至 2 月下旬。

20 世纪 90 年代前,山东菏泽的牡丹开花工夫次要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近几年更是在 4 月上旬便可观测到花开。

油菜开花的工夫也同样有了显著提前的趋势,江西婺源油菜花往年 2 月 22 日就见花了,3 月 13 日进入开花盛期,而在 30 年前,油菜花开花工夫个别在 3 月中旬。

Kepios 公布的一份报告显示,截止 2023 年 4 月,寰球社交媒体用户数量达到 48 亿,占寰球总人口的 59.9%,均匀每人每天破费 2 小时 24 分钟应用社交媒体利用,产生海量社交网络数据,无望为生态钻研提供新洞见。

作者在本论文中提出的 SNS 剖析技术,能够填补公开数据中缺失的局部,帮忙科研人员了解气候变化对于开花动物产生的不同水平的影响,对了解蜜蜂、昆虫等重要传粉者的行为具备积极意义。

参考文章:

[1]https://www.sciencedirect.com/science/article/abs/pii/S016819…

[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8

[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464…

[4]https://datareportal.com/social-media-users

本文首发自 HyperAI 超神经微信公众平台~

正文完
 0