关于机器学习:有效延缓痴呆症延世大学发现梯度提升机模型能准确预测-BPSD-亚综合征

内容一览： 随着人口老龄化水平一直加剧，痴呆症曾经成为公共衰弱问题。目前医学界医治该病还只能通过药物缓解，尚未发现治愈的无效办法，因而，预防痴呆症尤为紧迫。在这一背景下，延世大学的钻研人员开发了多个预测 BPSD 的机器学习模型，并对这些模型进行了验证。试验结果表明，机器学习可能无效预测 BPSD 亚综合症。

关键词： 痴呆症 BPSD 梯度提升机

本文首发自 HyperAI 超神经微信公众平台~

目前，寰球超 5.5 亿人患有痴呆症 (阿尔茨海默病为最常见类型)，每年新发病例靠近 1000 万， 随着人口老龄化水平一直加剧，预计到 2050 年，这一数字将减少两倍。痴呆症是一种脑部疾病，会导致患者记忆力、思维和推理能力迟缓降落。该疾病次要影响老年人，是导致老年人失去自理能力的次要起因之一，在寰球最次要的死亡起因（按死亡总人数排列）中位于第七位，前三位别离是缺血性心脏病、中风及慢性阻塞性肺病。

通常，痴呆症患者除了认知障碍外，还体现出一系列行为和心理症状 (BPSD)，如躁动、攻打、冷酷和抑郁等。 这些症状是痴呆症护理中最为简单、最具备挑战性的问题，它们不仅导致病人无奈独立生存，同时也给照护人员带来相当大的累赘。

近期，韩国延世大学 (Yonsei University) 的钻研人员 Eunhee Cho 等人开发了多个用于预测 BPSD 的机器学习模型，并对它们进行了验证。目前该钻研已公布在《Scientifc Reports》期刊，题目为「Machine learning‑based predictive models for the occurrence of behavioral and psychological symptoms of dementia: model development and validation」。

该研究成果已发表在《Scientific Reports》上

论文地址：

https://www.nature.com/articles/s41598-023-35194-5

数据集

本钻研分三次进行数据收集，共应用了 187 名痴呆症患者信息进行模型训练，另外 35 名患者信息用于内部验证。其中第二次数据收集是对第一次数据收集参与者进行的反复测量，第三次数据收集则招募了新的参与者进行测量。钻研中，第一次和第二次收集的数据用作训练集，第三次收集的数据集用于测试集。

为了对参与者进行全面的特色信息收集，钻研人员首先考察了他们的衰弱数据（年龄、性别、婚姻状况等）和发病前的性情类型（韩国五大人格量表 BFI-K）， 其次应用身材流动记录仪监测夜间睡眠和流动程度，最初又采纳了一种症状日记 (symptom diary) 来记录照料者感知到的症状的触发因素 (饥饿/口渴、排尿/排便、疼痛、失眠、乐音等) 以及患者每天产生的 12 种 BPSD。此外，这些症状也被划分为 7 个亚综合症， 下图直观展现了身材流动记录仪和症状日记数据的记录状况。

表 1：身材流动记录仪和症状日记的统计状况

SD： 标准差

TST： 总睡眠工夫

WASO： 入睡后醒来工夫

NoA： 醒来次数

MAL： 苏醒工夫

METs： 代谢当量

MVPA： 中度至激烈的身材流动

BPSD： 痴呆症行为和心理症状

其余起因： 其余看护者感知的 BPSD 触发因素（医治、噩梦等）

不过，因为参与者不遵从或安装佩戴不当等起因，导致流动记录仪数据缺失，据统计，数据短少者占总参加人数的 36%，均匀每人缺失 0.9 天数据。因而，钻研人员采纳链式方程的多重插补办法 (multivariate imputation was applied using chained equations) 来解决这部分缺失数据。

试验过程

钻研人员训练了 4 个模型，以确定预测每个亚综合症的最佳模型。基于钻研后果，钻研人员能够将这些模型利用于临床监测和预测 BPSD 亚综合症。同时针对潜在的 BPSD 影响因素进行干涉，实现以患者为核心的痴呆症护理服务。此外，机器学习算法还能够嵌入智能手机应用程序中，以进一步提高其价值。

模型性能

钻研人员采纳了 4 个机器学习算法，包含逻辑回归(logistic regression)、随机森林 (random forest)、梯度提升机 (gradient boosting machine) 和反对向量机(support vector machine) ，通过各自特有的学习算法评估模型性能，挑选出预测 BPSD 亚综合征最好的模型。这里，逻辑回归模型最为常见和成熟，因而作为基准模型用于判断机器学习的性能晋升水平。

基于训练集，通过五重穿插验证，不同模型预测 BPSD 亚综合征的性能如下图：

表 2：基于训练集，不同模型预测 BPSD 亚综合症性能

AUC： ROC 曲线下的面积

LR： 逻辑回归模型

RF： 随机森林模型

GBM： 梯度提升机模型

SVM： 反对向量机模型

ROC 曲线： ROC (Receiver Operating Characteristic Curve) 曲线是一种描述 分类器 性能的图形工具。

AUC 值： AUC (Area Under the Curve) 值示意 ROC 曲线下的面积，用于掂量分类器性能。AUC 值越靠近 1，示意分类器性能越好。

表 2 显示，梯度提升机模型在预测多动症 (0.706)、情感症状 (0.747) 和进食阻碍 (0.816) 方面 AUC 值较高； 反对向量机模型在预测精力症状方面 AUC 值 (0.706) 最高；随机森林模型在睡眠和夜间行为方面 AUC 值 (0.942) 最高；逻辑回归模型在异样流动行为 (0.822) 和病理性欣快症 (Euphoria/elation, 0.696) 方面 AUC 值最高。

模型验证

钻研人员应用了内部验证办法，在第三次收集的数据集上对模型进行验证。基于测试集，不同模型预测 BPSD 亚综合症的性能如下图：

表 3：基于测试数据集，不同模型预测 BPSD 亚综合症性能

AUC： ROC 曲线下的面积

LR： 逻辑回归模型

RF： 随机森林模型

GBM： 梯度提升机模型

SVM： 反对向量机模型

表 3 显示，比照逻辑回归模型，机器学习模型的体现都要更好。具体来看，对大多数亚综合症来说，随机森林和梯度提升机模型性能体现都优于逻辑回归和反对向量机模型；随机森林模型在预测多动症 (0.835)、病理性欣快症 (0.968) 和进食阻碍 (0.888) 方面比其余预测模型的 AUC 值要高；梯度提升机模型在预测精力症状 (0.801) 方面比其余预测模型的 AUC 值要高；反对向量机模型在睡眠和夜间行为 (0.929) 方面 AUC 值最高。

综合两图表信息，钻研人员发现在预测 7 个亚综合征方面，梯度提升机模型均匀 AUC 值最高，即体现最佳。 与此同时，钻研人员也揭示，在测试数据集的样本量较小状况下，须要审慎推断预测性能的后果，并倡议将来应进行更大样本量的反复试验以取得更精确的预测后果。

国内成绩：提前十年预测痴呆症发病

在痴呆症预测方面，除了国外，国内也获得了令人瞩目的成绩。 去年九月，复旦大学从属华山医院神经内科主任医师郁金泰临床钻研团队，联结复旦大学类脑智能科学与技术研究院冯建峰传授、程炜青年研究员算法团队开发了 UKB-DRP 痴呆预测模型。

该模型能够预测个体将来五年、十年甚至更长时间内是否会发病， 筛查出处于痴呆症病程晚期的群体，包含全因痴呆及其次要亚型 (如阿尔茨海默病)。该研究成果已发表在《柳叶刀》子刊《电子临床医学》上。

论文地址：

https://www.thelancet.com/journals/eclinm/article/PIIS2589-53…

这一研究成果也显示出了国内在痴呆症预测畛域的翻新实力和科研程度。将来，随着更多机构和钻研团队的退出，以及更全面、多样化数据的积攒，咱们无望看到更多国内外的单干与停顿。借助人工智能和大数据分析的力量，为预防、医治和治理痴呆症做出更大的奉献，为患者和家庭带来更多心愿和福祉。

本文首发自 HyperAI 超神经微信公众平台~

关于机器学习:有效延缓痴呆症延世大学发现梯度提升机模型能准确预测-BPSD-亚综合征

数据集

试验过程

模型性能

模型验证

国内成绩：提前十年预测痴呆症发病

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:有效延缓痴呆症延世大学发现梯度提升机模型能准确预测-BPSD-亚综合征

数据集

试验过程

模型性能

模型验证

国内成绩：提前十年预测痴呆症发病

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复