关于数据挖掘:R语言GAMLSS模型对艾滋病病例降雪量数据拟合预测置信区间实例可视化附代码数据

99次阅读

共计 3913 个字符,预计需要花费 10 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31996

原文出处:拓端数据部落公众号

最近咱们被客户要求撰写对于 GAMLSS 的钻研报告,包含一些图形和统计输入。

GAMLSS 模型是一种半参数回归模型,参数性体现在须要对响应变量作参数化散布的假如,非参数性体现在模型中解释变量的函数能够波及非参数平滑函数,非参数平滑函数不事后设定函数关系,各个解释变量的非线性影响后果齐全取决于样本数据。它克服了 GAM 模型和狭义线性模型 (Generalized Linear Models, GLM) 的一些局限性。

对间断散布数据拟合的实例 – 降雪量数据

降雪:63 年的年降雪量,每年降雪量数据

目标:帮忙客户证实间断散布对单个变量的拟合。

论断:正态假如是适当的。

模型的拟合和显示

数据集是降雪数据,数据显示,63 年降雪量。

> names(parzen)

在这里,咱们将数据拟合为正态分布 (NO)、γ(GA)、幂指数(PE) 散布。正态与伽马的比拟探讨了数据中是否存在正偏性。正态与幂指数的比拟表明了峰度的可能性,而 BCPE 则显示出数据中是否同时显示了偏度和峰度。GAIC 将帮忙咱们在不同的散布之间进行抉择。

>
> mBCPE <- histDistsnowfall, "BCPE", density = TRUE, main = "(d)",
+ 

请留神,选项密度 =true 申请将非参数核密度估计蕴含在图中

> GAIC

GAIC()函数的默认惩办是 k =2,Akaike 信息准则(留神,咱们能够应用等价函数 AIC())。AIC 准则表明,正态分布与数据齐全吻合。图显示了四个不同的散布。

测验模型

应用 R 函数 ks.test()提供的 Kolmogorov-Smirnovness 拟合测试测试正态模型 (或任何其余模型) 的充分性在这里是不可取的,因为咱们必须预计散布参数 u 和 o,所以测试有效。
(归一化分位数)残差的测验将提供一种钻研适配适足性的办法。归一化分位数残差是独立的规范正态变量。咱们冀望拟合的 (归一化分位数) 残差 I;近似地体现为正态分布的变量(即便最后的观测值 Y 不肯定是失常的),因而残差的归一化 Q - Q 图在这里是适合的。r 软件提供了用于绘制 QQ- 绘图的函数。

测验散布拟合参数可靠性的办法有两种:1)汇总函数和 Vcov 函数。一般来说,这两个值应该是雷同的,因为在默认状况下,汇总是 vcov 取得的标准误差。Vcov()失去的标准误差是通过反演全观测信息矩阵失去的,它们思考了散布参数估计之间的关系。留神,vcov()函数再一次批改最初的模型,以取得 Hessian 矩阵。

咱们批改了所抉择的最终模型

> moNO <- gamls

> summary(moNO)

> vcov(modNO, type = "se")

拟合模型由 Y~NO(i,a)给出,其中 ji=bo=80.3,log()=PO2=3.158,因而 6 =23.52。留神,j 和 o 是 u 和 o 的极大似然预计。

应用 vcov()后果,log(O)=Bo2 的 95% 置信区间 (CI) 为[3.158-(1.960.08922),3.158+(1.960.08922)]=(2.983,3.333),由此 [exp(2.983),exp(3.333)]=(19.75,28.02) 给出了 o 的 95%CI 置信区间。能够与图中的剖面偏差区间 (19.96,28.32) 进行比拟,失去了用下列 R 脚本失去的 [exp(3.021),exp(3.33)]=(20.51,27.93) 所给出的自举 CI。

> library(boot)  
>
> funB <- function(data, i) {+ d <- dtaframe(swfall = data[i,])  
+ coef(updae(modNO, dat = d), "sigma")  
+ }  
> boot(paren, funB R  199))

> plot(modOboot)
> boot.ci

艾滋病病例数据

在这里,咱们应用季度报告的艾滋病病例组成的数据,这些数据来自传染病监测中心公共卫生实验室服务部门。咱们首先帮忙客户应用泊松族来建模报告病例的数量 (响应变量),针对工夫(一个间断的解释变量),咱们用一个三次样条平滑器,应用 5 无效自由度,针对 Qrt,一个代表季度季节性效应的因子。而后(I) 将该族转换为负二项式 (I 型)(II),用 df=8(Ji) 更新平滑参数,去掉季度节令效应 (Iv),最初拟合一个响应 log(Y) 的正态族模型。


GAMLSS-RS iteration 1: Global Deviance = 448.1315  
GAMLSS-RS iteration 2: Global Deviance = 448.1315  
> # 用负二项分布
> h.nb <-update(h.po, family=NBI)  
GAMLSS-RS iteration 1: Global Deviance = 388.8086  
GAMLSS-RS iteration 2: Global Deviance = 390.7803  
GAMLSS-RS iteration 3: Global Deviance = 391.396  
GAMLSS-RS iteration 4: Global Deviance = 391.3996  
GAMLSS-RS iteration 5: Global Deviance = 391.3965
GAMLSS-RS iteration 6: Global Deviance = 391.3962  
> # 用平滑项
> h.nb1 <-update(h.nb,~cs(x,8)+qrt)  
GAMLSS-RS iteration 1: Global Deviance = 362.943  
GAMLSS-RS iteration 2: Global Deviance = 359.1257  
GAMLSS-RS iteration 3: Global Deviance = 359.229  
GAMLSS-RS iteration 4: Global Deviance = 359.2342  
GAMLSS-RS iteration 5: Global Deviance = 359.2348  

GAMLSS-RS iteration 2: Global Deviance = -42.3446  

预测

应用函数也能够提取模型中特定散布参数在解释变量以后数据值处的线性预测、拟合值和特定项。


> predict(aids.1)
1 2 3 4 5 6 7 8  
1.322524 1.490931 1.996051 2.140244 2.540856 2.64334 

为模型中的任何参数提供概要偏差,而不仅仅是对于散布参数。让咱们首先假如咱们有趣味拟合一个线性的工夫项 (X) 加上季度节令效应的一个因子,QRT,应用负二项式模型 (I 型) 家族。这个模型被拟合为

GAMLSS-RS iteration 1: Global Deviance = 492.7247  
GAMLSS-RS iteration 2: Global Deviance = 492.6375  
GAMLSS-RS iteration 3: Global Deviance = 492.6373  
> summary(aids1)  

线性工夫项 (Z) 的系数为 0.08744,其 t 值表明它是高度显着的。应用 0.08744+-1.96x 0.005382 能够失去该参数的 95% 置信区间,从而失去近似区间(0.0769,0.0980)。当初,咱们将应用函数 Pror 项来为线性项参数找到一个更准确的 95% 置信区间。请留神,模型公式中的此值批示要配置文件的参数。

prof.term(mo

如咱们所见,95% 的剖面偏差置信区间为 (0.0746,0.1009),与近似的(0.0769,0.0980) 相差不远。


最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%…)R 语言泊松 Poisson 回归模型剖析案例

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…) R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a…) R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%…)python 用线性回归预测股票价格

9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%…) R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

正文完
 0