内容一览: 人脸识别能够锁定人类身份,这一技术延申到鲸类,便有了「背鳍辨认」。「背鳍辨认」是利用图像识别技术,通过背鳍辨认鲸类物种。传统的图像识别依赖于卷积神经网络 (CNN) 模型,须要大量训练图像,并且只能辨认某些单物种。近期,夏威夷大学的钻研人员训练了一种多物种图像识别模型,该模型在鲸类利用中表现出色。
关键词: 图像识别 鲸类动物 ArcFace
作者|daserney
编辑|缓缓、三羊
本文首发于 HyperAI 超神经微信公众平台 ~
鲸类动物是陆地生态系统的旗舰动物和批示性生物,对于爱护陆地生态环境具备极高的钻研价值。 传统的动物身份辨认须要对动物进行现场拍摄,记录个体呈现的工夫和地位,蕴含许多步骤,过程繁冗。 其中又以图像匹配——在不同图像中辨认出同一个体尤为耗时。
2014 年 Tyne 等人开展的一项钻研预计,在对斑海豚 (Stenella longirostris) 进行为期一年的捕获和开释考察中, 图像匹配消耗了超过 1100 个小时的人力劳动,简直占据了整个我的项目总经费的三分之一 。
近期,来自夏威夷大学 (University of Hawai‘i) 的 Philip T. Patton 等钻研人员,利用 5 万多张照片(包含 24 种鲸类动物、39 个目录),训练了基于人脸识别 ArcFace Classification Head 的多物种图像识别模型。 该模型在测试集上达到了 0.869 的均匀准确率 (MAP)。其中,10 个目录的 MAP 得分超过 0.95。
目前该钻研已公布在《Methods in Ecology and Evolution》期刊上,题目为「A deep learning approach to photo–identification demonstrates high performance on two dozen cetacean species」。
该研究成果已发表在《Methods in Ecology and Evolution》
论文地址:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167
数据集:25 个物种、39 个目录
数据介绍
Happywhale 和 Kaggle 与寰球钻研人员合作,组建了一个大规模、多物种的鲸类数据集。该数据集是为 Kaggle 比赛收集的,要求参赛团队从背鳍 / 侧身的图像中辨认个体鲸目动物。 数据集蕴含 25 个物种 (species) 的 41 个目录 (catalogues),每个目录蕴含一个物种,其中有些目录中的物种会反复呈现。
该钻研去掉了两个比赛目录,因为其中一个只有 26 张用于训练和测试的低画质图像,而另一个目录则短少测试集。 最终的数据集蕴含 50,796 张训练图像和 27,944 张测试图像,其中,50,796 张训练图像蕴含 15,546 个身份 (identities)。 在这些身份中,9,240 个 (59%) 只有一张训练图像,14,210 个 (91%) 有 5 张以内训练图像。
数据集及代码地址:
https://github.com/knshnb/kaggle-happywhale-1st-place
训练数据
为了解决图像背景简单的问题,一些参赛者训练了图像裁剪模型,能够自动检测图像中的鲸类动物,并在其四周绘制边界框。下图中能够看出, 这一流程包含 4 个鲸类检测器,应用了 YOLOv5 和 Detic 在内的不同算法, 检测器的多样性减少了模型的鲁棒性,并且能对试验数据进行数据加强。
图 1:比赛集中 9 个目录的图像以及 4 个鲸类检测器生成的边界框
每个边界框生成的裁剪的概率为:红色为 0.60,橄榄绿为 0.15,橙色为 0.15,蓝色为 0.05。裁剪后,钻研人员将每个图像的大小调整为 1024 x 1024 像素,以与 EfficientNet-B7 backbone 兼容。
调整大小后,利用仿射变换、调整大小和裁剪、灰度、高斯含糊等数据加强技术, 防止模型呈现重大过拟合。
数据加强是指在训练过程中对原始数据进行变换或裁减,以减少训练样本的多样性和数量,从而进步模型的泛化能力和鲁棒性。
模型训练:物种 & 个体辨认并行不悖
下图显示了模型的训练流程,如图中橙色局部所示, 钻研人员将图像识别模型分为 3 个局部:backbone、neck 和 head。
图 2:多物种图像识别模型训练 Pipeline
图中第一行是预处理步骤(以一般海豚 Delphinus delphis 图像为例), 由 4 个指标检测模型生成 crops,数据加强步骤生成两个示例图像。
最上面一行则显示了图像分类网络的训练步骤, 从 backbone 到 neck 再到 head。
图像首先通过网络进入 backbone。 过来十年的一系列钻研曾经产生了数 10 种风行的 backbone,包含 ResNet、DenseNet、Xception 和 MobileNet。教训证,EfficientNet-B7 在鲸类利用中体现最佳。
Backbone 获取图像后,通过一系列卷积层和池化层对其进行解决,从而生成图像的简化三维示意。Neck 将此输入缩小为一维向量,又称为特征向量。
两个 head 模型,都将特征向量转换为类概率,即 Pr(species) 或 Pr(individual), 别离用于物种辨认和个体辨认。 这些 classification heads 被称为具备动静边距的次核心 ArcFace,广泛实用于多物种图像识别场景。
试验后果:均匀精度 0.869
对测试集中的 21,192 张图像(24 个物种的 39 个目录)进行预测,取得了 0.869 的均匀精度 (MAP)。 如下图所示,均匀精度因物种而异,且与训练图像或测试图像的数量无关。
图 3:测试集的均匀精度
顶部面板按用处(即训练或测试)显示每个物种的图像数量。具备多个目录的物种,则用 x 示意。
图中显示,该模型在辨认齿鲸 (toothed whale) 时体现较好,而在辨认须鲸 (baleen whale) 时体现较差, 其中只有两个须鲸物种的得分超过了平均水平。
对于多目录物种,模型性能也存在差别。 例如,一般小须鲸 (Balaenoptera acutorostrata) 不同目录之间的 MAP 得分别离为 0.79 和 0.60。其余物种如白鲸 (Delphinapterus leucas) 和虎鲸在不同目录之间的体现也有较大差别。
对此,钻研人员尽管没有找到能解释这种目录级性能差别的起因, 但他们发现一些定性指标如含糊度、独特性、标记混同、间隔、对比度和水花等,可能会影响图像的精度得分。
图 4:可能影响目录级性能差别的变量
图中每个点代表比赛数据集中的一个目录,像素示意图像和边界框宽度。Distinct IDs 示意训练集中不同个体的数量。然而, 目录级 MAP 与均匀图像宽度、均匀边界框宽度、训练图像数量、不同个体数量以及每个个体的训练图像数量之间并没有明确的关联。
综合以上,钻研人员提出用该模型进行预测时,代表 7 个物种的 10 个目录均匀精度高于 0.95,性能体现优于传统预测模型,进而阐明应用该模型能正确辨认个体。 此外,钻研人员还在试验过程中总结出 7 点对于鲸类钻研的注意事项:
- 背鳍辨认体现最佳。
- 显著个体特色较少的目录体现不佳。
- 图像品质很重要。
- 利用色彩辨认动物可能较为艰难。
- 特色绝对于训练集差距较大的物种得分较差。
- 预处理依然是一个阻碍。
- 动物标记变动可能会影响模型体现。
Happywhale:鲸类钻研的公众迷信平台
本文数据集介绍中提到的 Happywhale 是一个分享鲸类图像的公众迷信平台, 其指标是解锁大量数据集、促成 photo ID 的疾速匹配, 并为公众发明科研参与度。
Happywhale 官网地址:
https://happywhale.com/
Happywhale 成立于 2015 年 8 月,其联结创始人 Ted Cheeseman 是一位博物学家 (Naturalist),他在加利福尼亚蒙特雷湾 (Monterrey Bay) 长大,从小就喜爱观鲸,曾多次返回南极洲和南乔治亚岛探险, 具备 20 余年南极探险及极地游览治理的教训。
Happywhale 联结创始人 Ted Cheeseman
2015 年,Ted 来到了工作 21 年的 Cheesemans’Ecology Safaris(由 Ted 父母在 1980 年开办的生态旅行社,Ted 父母同样是博物学家),投身 Happywhale 我的项目– 收集科研数据,进一步了解并爱护鲸类。
短短几年内,http://Happywhale.com 曾经成为鲸类钻研畛域的最大贡献者之一, 除鲸类辨认图像的数量微小外,对了解鲸类的迁徙模式也提供了诸多洞见。
参考链接:
[1]https://baijiahao.baidu.com/s?id=1703893583395168492
[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132
[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette
[4]https://happywhale.com/about
本文首发于 HyperAI 超神经微信公众平台 ~