关于数据挖掘:R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析

34次阅读

共计 4732 个字符,预计需要花费 12 分钟才能阅读完成。

原文链接 :https://tecdat.cn/?p=35243

原文出处:拓端数据部落公众号

特发性黄斑视网膜前膜能引起患者视物变形、变小和视力降落等视性能侵害。为钻研特发性黄斑视网膜前膜的危险因素,咱们回顾性剖析 202 例患者的临床材料,根据诊断分为 []()[IMEM]() 组和对照组(非 IMEM 组)。收集该疾病临床上惯例查看的 30 个相干因素。咱们帮忙客户通过引入 GroupLasso 模型办法,筛选出导致疾病产生的最重要的危险因素。结果表明,糖尿病、高血压和高密度脂蛋白是影响 IMEM 产生的危险因素。

该钻研后果将对 IMEM 晚期诊断、晚期预防、晚期医治,升高 IMEM 的发生率具备重要的临床意义。

背景

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内外表成长的纤维无血管的细胞性增殖膜,相似的病名还有:视网膜前纤维增生症(preretinal fibrosis), 黄斑皱缩综合症(macular pickling syndrome), 玻璃纸样黄斑病变 (cellophane maculopathy) 及黄斑皱褶 (macular pucker) 等,是老年人影响视力的一个重要起因。

意义

近年来,一项来自美国 6 个社区的白人、黑人、西班牙人、中国人在内的流行病考察,以钻研黄斑前膜的产生是否有种族差别,报道 IMEM 发生率为 26.1%,中国人发病率最高,达 39.0%。黄斑前膜日益成为威逼我国中老年人视觉品质的重要因素。

随着医疗技术的逐步完善,IMEM 的诊断程度失去了进步,但一些医院因查看设施问题不能及时无效的做出诊断。因为 IMEM 的病因不明,思考全身疾病和眼部分疾病相关因素等各项指标数据较多,而且各项指标间存在着乐音和数据冗余。

国内外文献综述

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内外表成长的纤维无血管的细胞性增殖膜,相似的病名还有:视网膜前纤维增生症(preretinal fibrosis), 黄斑皱缩综合症(macular pickling syndrome), 玻璃纸样黄斑病变 (cellophane maculopathy) 及黄斑皱褶 (macular pucker) 等,是影响老年人视力的一个重要起因。大部分患者的黄斑视网膜前膜,造成的起因不明,称为特发性黄斑视网膜前膜(idiopathyic macular epiretinal membrane)。

国内外多钻研表明,IMEM 发病起因不明,患者多是年龄大于 50 岁的老年人,并且发病率随着年龄的增长有减少的趋势。IMEM 确切的发病机制尚不分明,次要是由来自视网膜的各类细胞及其衍生物和代谢产物形成前膜。造成与玻璃体后脱离 (posterior vitreous  detachment,PVD) 和来自视网膜的细胞向黄斑区的迁徙、积累,这些细胞最终造成具备膨胀能力的纤维膜,引起一系列的黄斑区视网膜状态和性能的变动。

钻研的问题

本文次要钻研的问题是:解决变量抉择问题,综合思考临床工作中惯例检测到的相干因素以及相干因素之间的交互作用,从泛滥变量中筛选出对产生 IMEM 有显著影响的变量。

钻研内容与思路

相干因素抉择的根本问题

咱们罕用的就是分类器的精确度(accuracy),在某些如举荐或信息获取畛域还会组合应用 precision-recall 作为评估指标。因为你用于训练分类器的样本自身就是总体的一个抽样,所以这些指标的数值也仅仅是一种统计上的反映,如果你做屡次抽样训练,跟别的随机变量一样,它一样会有冀望、方差、置信区间这些概念。实践上说,训练样本量越大,你失去的这些指标的可信度就越高(即它们以某个概率落在的置信区间越窄)。可怜的是,理论中你未必会有那么多的样本,所以机器学习工作者设计出很多种办法来应答数据量有余状况下分类器的训练与评估,如 k 步穿插测验、留 1 法、boostrap 等等。

模型的引入

套索 (lasso) 是回归模型的变量抉择办法,最后利用于一般最小二乘法 (OLS) 回归。套索最好被形容在模型参数,其中具备特定常数作为下限的绝对值和的束缚。相比 OLS 参数估计,应用 Lasso 取得的预计通常是更精确,容许该模型的更好的解释。

特发性黄斑视网膜前膜产生相干因素实证剖析

本文钻研数据选取我院 2014 年 4 月 - 2016 年 4 月收治的经我院确诊的特发性黄斑视网膜前膜单眼发病患者 101 例(101 眼) 作为察看组,另选取于我院就诊的无黄斑区病变的其余患者 101 例(101 眼) 作为对照组。

失常眼底黄斑 OCT 图像:

同一患者左眼 IMEM 黑白眼底照:

数据阐明与解决

本钻研采取回顾性病例剖析,考察所有病例的眼部病史 (白内障、青光眼)、个别状况(年龄、性别、文化水平、职业),生存形式(如吸烟、饮酒、睡眠情况、用眼状况),测量体重,腰围。全身系统性疾病(糖尿病、高血压、LDL、HDL、血管疾病、消化系统、泌尿系统、精力系统疾病) 和服用降压药、降糖药、调脂药、慌张催眠药、镇痛药、溶栓药等用药史,并进行数据统计,剖析 IMEM 的相干因素。特发性黄斑视网膜前膜的相干因素共有 30 个,包含 3 个连续变量,5 个多分类变量,22 个二分类变量。

数据形容与剖析

特发性黄斑视网膜前膜相干因素数据特色:


ddply(data, .(IMEM), summarise,
            mean_sex = mean(sex),
            median_sex = median(sex),
            mean_age = mean(age),

IMEM 组与非 IMEM 组 3 个相干因素指标散布箱图

变量抉择和参数估计

应用 R 中的 glmnet 包进行由成组 Lasso 选出协变量的 Logistic 模型,通过 10 折穿插验证,选出最优的 λ 和最佳 cutoff 值,使得 MSE 最小。再将 cutoff 值代入模型,选出最重要的变量。最终糖尿病(DM2), 高血压(HP2), 低密度脂蛋白(LDL)三个变量被选出。其中带 + 号的示意 IMEM 产生的危险因素,带 - 号的示意 IMEM 产生的爱护因素。此时的 λ 为 0.06。三个选出的变量的系数别离为 0.74,0.93,1.12。

glmnet(xmat, y, alpha = 1)

应用岭迹法对岭迹图进行剖析:

岭迹法的直观思考是,如果最小二乘预计看来有不合理之处,如估计值以及正负号不合乎经济意义,则心愿能通过采纳适当的 k 值来加以肯定水平的改善,k 值得抉择就显得尤为重要。

预测

通过由成组 Lasso 选出协变量的 Logistic 模型剖析,最终 2 型糖尿病(DM2), 高血压 2 期(HP2), 低密度脂蛋白(LDL)三个变量被选出。

通过预测后果能够看出,TPR 达到了 96.96%,TNR 达到了 97.1%,FPR 为 2.9%,FNR 为 3.03%, 阐明本文的 Logistic 预测模型拟合的很好, 对解决理论问题很有意义。

模型比拟

本文通过穿插验证的办法,抉择最优的参数,使得 AUC 指标最大。选出了影响 IMEM 产生的三个重要因素。不仅减少了模型的可解释性,也减少了判断准则的灵敏度,使得有更多的 IMEM 潜在患者被筛选进去。

上面思考以下两种情景

(1)蕴含所有待选协变量的 Logistic 模型,应用 0.5 做 cutoff 值。

(2)仅蕴含由成组 Lasso 选出协变量的 Logistic 模型,应用 0.5 作 cutoff 值。

将这两种情景与本文提出的办法作比拟,得出的后果如下表所示:

在本钻研中,研究者利用二分类响应变量和 30 个待选协变量(间断、二分类、多分类有序)建设模型。为了比拟不同调整参数筛选解释变量的成果,建设如下三个蕴含不同协变量的模型并通过十折穿插验证计算判断误差:

1)模型 I:蕴含所有待选协变量的 Logistic 模型;

2)[]()[模型]()II:成组 []()[Lasso Logistic]() 模型;

3)模型 III:仅蕴含由成组 Lasso 选出协变量的 Logistic 模型。

图是三个模型误差曲线图,模型 I 的误差为 20.6%,模型 III 的误差为 4.9%,模型 II 的误差介于二者之间, 为 20.0%。

参考文献

[1].       陈钦元.黄斑部视网膜前膜[M]聂爱光. 古代黄斑疾病诊断医治                                   学.北京: 北京医科大学、中国协和医科大学联结出版社,1996:131-135.

[2].       Lan-Hsin Chuang , Nan-Kai Wang , Yen-Po Chen b,et al. Comparison of visual outcomes after epiretinal membrane surgery[J].Taiwan Journal of Ophthalmology 2 (2012):56-59.

[3].       邢晓利,梁勇.光学相干断层扫描在玻璃体黄斑界面疾病中的临床利用停顿[J]. 国内眼科杂志,2013,13(8):1583-1585.

[4].       Minchiotti S,Stampachiacchiere B,Micera A,et al.Human idiopathic epiretinal membranes express NGF and NGF receptors [J].Retina,208,28(4):628-637.

[5].       Kawasaki R,Wang JJ,Mitchell P,et a1.Racial difference in the prevalence of epiretinal membrane between Caucasians and Asians[J].Br J Ophthalmol,2008,92(10):1320—1324.


最受欢迎的见解

1.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94…)R 语言泊松 Poisson 回归模型剖析案例

5.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%a…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](https://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8…)在 R 语言中实现 Logistic 逻辑回归

8.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89…)python 用线性回归预测股票价格

9.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94…)R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0