关于数据挖掘:R语言用局部加权回归Lowess对logistic逻辑回归诊断和残差分析附代码数据

58次阅读

共计 2457 个字符，预计需要花费 7 分钟才能阅读完成。

最近咱们被客户要求撰写对于部分加权回归的钻研报告，包含一些图形和统计输入。

目前，回归诊断不仅用于个别线性模型的诊断，还被逐步推广利用于狭义线性模型畛域（如用于 logistic 回归模型），但因为个别线性模型与狭义线性模型在残差散布的假设等方面有所不同，所以推广和利用还存在许多问题

鉴于此，本文应用图表考查 logistic 模型的拟合优度。

如何解决从逻辑回归中失去的残差图？为了更好地了解，让咱们思考以下数据集

glm(Y~X1+X2,family=binomial)

如果咱们应用 R 的诊断图，第一个是残差的散点图，对照预测值。

> plot(reg,which=1)

也能够

> plot(predict(reg),residuals(reg))
> abline(h=0,lty=2)

为什么咱们会有这两条线的点？因为咱们预测了一个变量取值为 0 或 1 的概率。当咱们应用黑白时，能够更分明地看到，如果真值是 0，那么咱们总是预测得更多，残差必须是负的（蓝点），如果真值是 1，那么咱们就低估了，残差必须是正的（红点）。当然，还有一个枯燥的关系

> plot(predict(reg),residuals(reg) )

点正好在一条平滑的曲线上，是预测值的一个函数。

点击题目查阅往期内容

数据分享 | R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

左右滑动查看更多

01

02

03

04

当初，从这个图上看不出什么。咱们运行一个部分加权回归，看看产生了什么。

 lowess(predict(reg),residuals(reg)

这是咱们在第一个诊断函数中所失去的。但在这个部分回归中，咱们没有失去置信区间。咱们能够假如图中水平线十分靠近虚线吗？

 segments(fit+2* se.fit,  fit-2* se.fit)

能够。这个图表表明什么？

事实上，该图可能不是察看残差的惟一办法。如果不把它们与两个解释变量绘制在一起呢？例如，如果咱们将残差与第二个解释变量作比照，咱们会失去

> lines(lowess(X2,residuals(reg))

对照一下，该图与咱们之前的图类似。

如果咱们当初看一下与第一个解释变量的关系：

> lines(lowess(X1,residuals(reg))

因为咱们能够分明地辨认出二次方的影响。这张图表明，咱们应该对第一个变量的平方进行回归。而且能够看出它是一个重要的影响因素。

当初，如果咱们运行一个包含这个二次方效应的回归，咱们会失去什么。

 glm(Y~X1+I(X1^2)+X2,family=binomial)

看起来和第一个逻辑回归模型后果相似。那么本文的观点是什么？观点是

图形能够用来察看可能出错的中央，对可能的非线性转换有更多的直觉判断。
图形不是万能的，从实践上讲，残差线应该是一条程度的直线。但咱们也心愿模型尽可能的简略。所以，在某个阶段，咱们兴许应该依附统计测验和置信区间。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R 语言用部分加权回归 (Lowess) 对 logistic 逻辑回归诊断和残差剖析》。

点击题目查阅往期内容

【视频】CNN（卷积神经网络）模型以及 R 语言实现回归数据分析
PYTHON 用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型剖析经济工夫序列
数据分享 | R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况 R 语言是否对二分连续变量执行逻辑回归
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归（Logistic 回归）模型分类预测病人冠心病危险
R 语言用部分加权回归(Lowess) 对 logistic 逻辑回归诊断和残差剖析 R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言用线性模型进行臭氧预测：加权泊松回归，一般最小二乘，加权负二项式模型，多重插补缺失值 R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言中回归和分类模型抉择的性能指标
R 语言多元工夫序列滚动预测：ARIMA、回归、ARIMAX 模型剖析
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言计量经济学：虚构变量 (哑变量) 在线性回归模型中的利用
R 语言线性混合效应模型实战案例
R 语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R 语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型（GLMM）和线性混合模型（LMM）
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用 SAS，Stata，HLM，R，SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS 中的多层（等级）线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层（档次）线性模型模型