关于数据挖掘:R语言用局部加权回归Lowess对logistic逻辑回归诊断和残差分析附代码数据

全文链接：http://tecdat.cn/?p=22328

最近咱们被客户要求撰写对于部分加权回归的钻研报告，包含一些图形和统计输入。

目前，回归诊断不仅用于个别线性模型的诊断，还被逐步推广利用于狭义线性模型畛域（如用于logistic回归模型），但因为个别线性模型与狭义线性模型在残差散布的假设等方面有所不同，所以推广和利用还存在许多问题

鉴于此，本文应用图表考查logistic模型的拟合优度。

如何解决从逻辑回归中失去的残差图？为了更好地了解，让咱们思考以下数据集

glm(Y~X1+X2,family=binomial)

如果咱们应用R的诊断图，第一个是残差的散点图，对照预测值。

> plot(reg,which=1)

也能够

> plot(predict(reg),residuals(reg))> abline(h=0,lty=2 )

为什么咱们会有这两条线的点？因为咱们预测了一个变量取值为0或1的概率。当咱们应用黑白时，能够更分明地看到，如果真值是0，那么咱们总是预测得更多，残差必须是负的（蓝点），如果真值是1，那么咱们就低估了，残差必须是正的（红点）。当然，还有一个枯燥的关系

> plot(predict(reg),residuals(reg) )

点正好在一条平滑的曲线上，是预测值的一个函数。

点击题目查阅往期内容

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

左右滑动查看更多

当初，从这个图上看不出什么。咱们运行一个部分加权回归，看看产生了什么。

 lowess(predict(reg),residuals(reg)

这是咱们在第一个诊断函数中所失去的。但在这个部分回归中，咱们没有失去置信区间。咱们能够假如图中水平线十分靠近虚线吗？

 segments( fit+2* se.fit,  fit-2* se.fit )

能够。这个图表表明什么？

事实上，该图可能不是察看残差的惟一办法。如果不把它们与两个解释变量绘制在一起呢？例如，如果咱们将残差与第二个解释变量作比照，咱们会失去

> lines(lowess(X2,residuals(reg))

对照一下，该图与咱们之前的图类似。

如果咱们当初看一下与第一个解释变量的关系：

> lines(lowess(X1,residuals(reg))

因为咱们能够分明地辨认出二次方的影响。这张图表明，咱们应该对第一个变量的平方进行回归。而且能够看出它是一个重要的影响因素。

当初，如果咱们运行一个包含这个二次方效应的回归，咱们会失去什么。

 glm(Y~X1+I(X1^2)+X2,family=binomial)

看起来和第一个逻辑回归模型后果相似。那么本文的观点是什么？观点是

图形能够用来察看可能出错的中央，对可能的非线性转换有更多的直觉判断。
图形不是万能的，从实践上讲，残差线应该是一条程度的直线。但咱们也心愿模型尽可能的简略。所以，在某个阶段，咱们兴许应该依附统计测验和置信区间。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R语言用部分加权回归(Lowess)对logistic逻辑回归诊断和残差剖析》。

点击题目查阅往期内容

【视频】CNN（卷积神经网络）模型以及R语言实现回归数据分析
PYTHON用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型剖析经济工夫序列
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
R语言逻辑回归logistic模型剖析泰坦尼克titanic数据集预测生还状况R语言是否对二分连续变量执行逻辑回归
R语言用lme4多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R语言逻辑回归（Logistic回归）模型分类预测病人冠心病危险
R语言用部分加权回归(Lowess)对logistic逻辑回归诊断和残差剖析R语言用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R语言用线性模型进行臭氧预测：加权泊松回归，一般最小二乘，加权负二项式模型，多重插补缺失值R语言Bootstrap的岭回归和自适应LASSO回归可视化
R语言中回归和分类模型抉择的性能指标
R语言多元工夫序列滚动预测：ARIMA、回归、ARIMAX模型剖析
R语言用lme4多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R语言计量经济学：虚构变量(哑变量)在线性回归模型中的利用
R语言线性混合效应模型实战案例
R语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型（GLMM）和线性混合模型（LMM）
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS中的多层（等级）线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层（档次）线性模型模型