关于机器学习:狗狗求职记AI-面试人类辅助美研究所利用-628-只拉布拉多数据提升嗅觉检测犬选拔效率

内容一览： 犬类嗅觉灵活，是执行艰难工作的得力助手。然而，工作犬提拔须要通过严格的筛选和训练，淘汰率极高。利用监督式机器学习和工作数据，能够用来预测人类工作体现，然而，目前尚未发现相似的犬类钻研。
关键词： 工作犬监督式机器学习随机森林

作者|daserney

编辑|三羊

本文首发于 HyperAI 超神经微信公众平台 ~

在公园的绿地上、大街小巷的角落里、经常能够看到狗狗的身影。除了作为人类的陪伴，带来欢畅与刺激外， 还有许多非凡的狗狗正默默从事着重要的工作，服务于人类社会，他们被称为工作犬。

工作犬品种多样，包含军警犬、搜救犬和服务犬等，每一种类别下又分为许多不同的业余畛域。其中，嗅觉侦测犬的次要工作是利用自身超强的嗅觉来检测各种特定的物质，例如爆炸物、毒品等。 其嗅觉能力对于爱护人类社会的平安，起着不可代替的作用。

大多数未经训练的工作犬售价在 4-8 万美元，如果将训练老本纳入思考，价格可能翻倍。然而， 工作犬的整体训练成功率低于 50%，亟需开发更无效的提拔和训练方法。

近期，来自美国全国儿童医院阿比盖尔·韦克斯纳研究所 (The Abigail Wexner Research Institute) 的 Alexander W. Eyre，以及洛基维斯塔大学 (Rocky Vista University) 的 Isain Zapata 等钻研人员，利用美国运输平安管理局嗅觉检测队 628 只拉布拉多猎犬的数据，比照 3 种模型， 预测猎犬是否通过预训练进入正式训练阶段，并发现了影响嗅觉检测犬体现的行为个性。

目前该钻研已公布在《Scientific Reports》期刊上，题目为「Machine learning prediction and classification of behavioral selection in a canine olfactory detection program」。

该研究成果已发表在《Scientific Reports》

论文地址：

https://www.nature.com/articles/s41598-023-39112-7#Sec8

该钻研数据来自美国运输平安管理局 (TSA)，在 2002 – 2013 年期间进行的一项嗅觉检测犬豢养和训练打算。 该数据集蕴含 628 只拉布拉多猎犬的评分，这些猎犬在间断 15 个月的寄养期间内，每 3 个月承受两项测试。

测试 1：机场航站楼 (Airport Terminal，简称 AT) 测试。 AT 测试在一个空的模仿机场航站楼内进行，工作人员率领猎犬穿过模仿机场航站楼，在随机分布的容器中寻找带有气息的毛巾，以及与玩具进行互动。这项测试通过测量辨认带有气息毛巾时的体现、与工作人员、毛巾和玩具的互动水平，展现猎犬的训练后劲。

测试 2：环境 (Environmental，简称 Env) 测试，在基地四周的不同地点进行。 测试内容包含让猎犬在工作人员的疏导下走动、尝试进行搜寻、并在嘈杂和拥挤的环境中与玩具和工作人员互动。测试地点包含忙碌的礼品兑换店 (BX)、噪声大且光明关闭的木工店 (Woodshop)、有挪动交通和乐音的货运区 (Airport Cargo) 以及各种机场航站楼 (Airport Terminal)。这项测试与 AT 测试相辅相成，因为在 AT 测试中，没有其余人员扩散猎犬的注意力。

表 1: 猎犬个性以及评分形容

AT= 机场航站楼测试，E= 环境测试，B= 两者都有。

该钻研应用了 3 种不同的监督式机器学习算法，依据猎犬在行为测试中的体现，预测其通过预训练提拔的成功率。 应用的算法包含随机森林、反对向量机和逻辑回归。

该钻研还应用主成分剖析 (PCA) 和穿插验证的递归个性打消 (RFECV)， 来确定影响嗅觉检测犬体现的重要行为个性。

其中，PCA 是一种统计技术，通过辨认最重要的变量来升高数据维度；RFECV 是一种机器学习算法，它通过递归打消不重要的个性，从而筛选出最重要的个性。

如下图 A 所示，在 AT 测试中， 模型的预测能力总体上随着时间推移而有所提高。 在第 12 个月的测试数据中，随机森林模型的体现最为突出， 准确率 (Accuracy) 达到了 87%，AUC (曲线下面积) 为 0.68。 逻辑回归模型的体现稍逊一筹， 但整体上仍体现良好。然而， 反对向量机模型的后果绝对不太稳固， 这次要是因为其在预测未通过猎犬的召回率 (recall) 上体现不佳。

表 2: 3 种模型性能 -A

如下图 B 所示，在 Env 测试中，预测后果并不现实。 这可能是因为，与 AT 测试相比，参加 Env 测试的猎犬均匀数量绝对较少 (56% vs. 73%)。总的来说， 逻辑回归模型体现较好。 反对向量机在 4 个工夫点，预测未通过猎犬的 F1 都极低。

所有 3 种模型在第 3 个月时准确率最高 (0.82-0.84)，且预测通过猎犬的 F1 分数较高 (0.90-0.91)。然而，它们在第 3 个月时预测未通过猎犬的体现都不佳（F1≤0.10）。

表 2: 3 种模型性能 -B

Logistic Regression: 逻辑回归

Support Vector Machine: 反对向量机

Random Forest: 随机森林

A: 机场航站楼测试，AT 测试

B: 环境测试，Env 测试

M03、M06、M09、M12 别离示意测试工夫为第 3、第 6、第 9、和第 12 个月。

图中 / 前数据表示通过预训练提拔猎犬的后果，/ 后则为未通过预训练提拔猎犬的后果。

钻研人员应用主成分剖析 (PCA) 和穿插验证的递归特色打消 (RFECV) 来确定哪些个性对不同工夫点的预测最为重要。 下图显示了 PCA 在 AT 测试以及 Env 测试中的后果。

图 1: 主成分剖析后果

a: 机场航站楼测试，AT 测试

b: 环境测试，Env 测试

横轴特色缩写与表 1 对应。

如上图 a 所示，在 AT 测试中，第 3 个月和第 6 个月的测试数据显示，影响最大的个性是 H1/2 (Hidden 1/2)，而在第 9 个月和第 12 个月的测试数据中，物理占有 (Physical Posession, PP) 影响最大。上图 b 显示，在 Env 测试中，玩具独立占有 (Independent Possession, IP) 在所有工夫点的影响最大。

递归特色打消 (RFECV) 是一种特征选择技术，它通过减少或移除特定特色变量，取得可能最大化模型性能的最优组合变量。 在该钻研中，RFECV 与随机森林联合应用。

表 3: 穿插验证的递归特色打消 (RFECV) 后果

a: 机场航站楼测试

b: 环境测试

数值示意各个特色呈现的百分比，范畴从 0 到 100。

特色缩写与表 1 对应。

如上图 A 所示，在机场航站楼测试中，所有的占有个性 (MP, PP, IP) 及 H2 最为重要。

上图 B 显示，在环境测试中，在第 3 个月和 6 个月时，信念 (Conf) 最重要 (100% 和 88.7%)；在第 9 个月时，独立占有 (Independent Possession, IP) 最重要 (93.3%)；在第 12 个月时，物理占有 (Physical Posession, PP) 最重要 (80.7%)。

综上，钻研结果表明，某些个性如 H2、IP、Conf 可能具备较大的影响力。 然而，因为数据集规模较小，并且个性品种无限，该钻研在辨认胜利通过预训练提拔，和因行为问题未通过的猎犬方面还存在一些问题。尽管如此， 通过引入更多的行为个性、医疗信息以及其余类型的纵向数据，无望进一步晋升和拓展该预测程序。

该钻研作者 Elizabeth Hare 所属机构宾夕法尼亚州兽医工作犬核心 (Penn Vet Working Dog Center) 是工作犬畛域的先驱，旨在推动最新迷信发现和兽医专业知识的钻研和利用，以优化气息探测犬的体现。 该机构受 9·11 袭击事件时搜救犬的杰出体现所启发，于 2012 年 9 月 11 日创建，成为国家搜救犬钻研和开发核心。

机构地址：

https://www.vet.upenn.edu/research/centers-laboratories/center/penn-vet-working-dog-center

Penn Vet Working Dog Center 致力于与犬类单干，爱护人类、动物以及环境的衰弱和平安，通过收集和剖析遗传、行为和身体健康数据，联合最新的科学研究，晋升工作犬的工作效率和生存福祉。 其工作不仅包含制订和施行工作犬的造就和训练打算，还包含测试和流传研究成果，以便更好地应答将来的挑战。

参考链接：

[1]https://zhuanlan.zhihu.com/p/384069169

[2]https://blog.csdn.net/qq_35218635/article/details/110001554

[3]https://zhuanlan.zhihu.com/p/626862784

[4]https://zhuanlan.zhihu.com/p/35

关于机器学习:狗狗求职记AI-面试人类辅助美研究所利用-628-只拉布拉多数据提升嗅觉检测犬选拔效率

试验办法

数据介绍：AT + Env 预测猎犬体现

采纳 3 种预测模型，两种个性筛选办法

试验后果

预测猎犬通过率：AT 测试后果较好

影响个性：占有个性、信念、H2 影响较大

专一工作犬钻研的科研机构

Just My Socks（注册教程内含优惠码）

关于机器学习:狗狗求职记AI-面试人类辅助美研究所利用-628-只拉布拉多数据提升嗅觉检测犬选拔效率

试验办法

数据介绍：AT + Env 预测猎犬体现

采纳 3 种预测模型，两种个性筛选办法

试验后果

预测猎犬通过率：AT 测试后果较好

影响个性：占有个性、信念、H2 影响较大

专一工作犬钻研的科研机构

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）