全文链接:http://tecdat.cn/?p=31996
原文出处:拓端数据部落公众号
最近咱们被客户要求撰写对于GAMLSS的钻研报告,包含一些图形和统计输入。
GAMLSS模型是一种半参数回归模型,参数性体现在须要对响应变量作参数化散布的假如,非参数性体现在模型中解释变量的函数能够波及非参数平滑函数,非参数平滑函数不事后设定函数关系,各个解释变量的非线性影响后果齐全取决于样本数据。它克服了GAM模型和狭义线性模型(Generalized Linear Models, GLM)的一些局限性。
对间断散布数据拟合的实例--降雪量数据
降雪:63年的年降雪量,每年降雪量数据
目标:帮忙客户证实间断散布对单个变量的拟合。
论断:正态假如是适当的。
模型的拟合和显示
数据集是降雪数据,数据显示,63年降雪量。
> names(parzen)
在这里,咱们将数据拟合为正态分布(NO)、(GA)、幂指数(PE)散布。正态与伽马的比拟探讨了数据中是否存在正偏性。正态与幂指数的比拟表明了峰度的可能性,而BCPE则显示出数据中是否同时显示了偏度和峰度。GAIC将帮忙咱们在不同的散布之间进行抉择。
>> mBCPE <- histDistsnowfall, "BCPE", density = TRUE, main = "(d)",+
请留神,选项密度=true申请将非参数核密度估计蕴含在图中
> GAIC
GAIC()函数的默认惩办是k=2,Akaike信息准则(留神,咱们能够应用等价函数AIC())。AIC准则表明,正态分布与数据齐全吻合。图显示了四个不同的散布。
测验模型
应用R函数ks.test()提供的Kolmogorov-Smirnovness拟合测试测试正态模型(或任何其余模型)的充分性在这里是不可取的,因为咱们必须预计散布参数u和o,所以测试有效。
(归一化分位数)残差的测验将提供一种钻研适配适足性的办法。归一化分位数残差是独立的规范正态变量。咱们冀望拟合的(归一化分位数)残差I;近似地体现为正态分布的变量(即便最后的观测值Y不肯定是失常的),因而残差的归一化Q-Q图在这里是适合的。r软件提供了用于绘制QQ-绘图的函数。
测验散布拟合参数可靠性的办法有两种:1)汇总函数和Vcov函数。一般来说,这两个值应该是雷同的,因为在默认状况下,汇总是vcov取得的标准误差。Vcov()失去的标准误差是通过反演全观测信息矩阵失去的,它们思考了散布参数估计之间的关系。留神,vcov()函数再一次批改最初的模型,以取得Hessian矩阵。
咱们批改了所抉择的最终模型
> moNO <- gamls
> summary(moNO)
> vcov(modNO, type = "se")
拟合模型由Y~NO(i,a)给出,其中ji=bo=80.3,log()=PO2=3.158,因而6=23.52。留神,j和o是u和o的极大似然预计。
应用vcov()后果,log(O)=Bo2的95%置信区间(CI)为[3.158-(1.960.08922),3.158+(1.960.08922)]=(2.983,3.333),由此[exp(2.983),exp(3.333)]=(19.75,28.02)给出了o的95%CI置信区间。能够与图中的剖面偏差区间(19.96,28.32)进行比拟,失去了用下列R脚本失去的[exp(3.021),exp(3.33)]=(20.51,27.93)所给出的自举CI。
> library(boot) >> funB <- function(data, i) { + d <- dtaframe(swfall = data[i, ]) + coef(updae(modNO, dat = d), "sigma") + } > boot(paren, funB R 199))
> plot(modOboot)> boot.ci
艾滋病病例数据
在这里,咱们应用季度报告的艾滋病病例组成的数据,这些数据来自传染病监测中心公共卫生实验室服务部门。咱们首先帮忙客户应用泊松族来建模报告病例的数量(响应变量),针对工夫(一个间断的解释变量),咱们用一个三次样条平滑器,应用5无效自由度,针对Qrt,一个代表季度季节性效应的因子。而后(I)将该族转换为负二项式(I型)(II),用df=8(Ji)更新平滑参数,去掉季度节令效应(Iv),最初拟合一个响应log(Y)的正态族模型。
GAMLSS-RS iteration 1: Global Deviance = 448.1315 GAMLSS-RS iteration 2: Global Deviance = 448.1315 > # 用负二项分布> h.nb <-update(h.po, family=NBI) GAMLSS-RS iteration 1: Global Deviance = 388.8086 GAMLSS-RS iteration 2: Global Deviance = 390.7803 GAMLSS-RS iteration 3: Global Deviance = 391.396 GAMLSS-RS iteration 4: Global Deviance = 391.3996 GAMLSS-RS iteration 5: Global Deviance = 391.3965GAMLSS-RS iteration 6: Global Deviance = 391.3962 > # 用平滑项> h.nb1 <-update(h.nb,~cs(x,8)+qrt) GAMLSS-RS iteration 1: Global Deviance = 362.943 GAMLSS-RS iteration 2: Global Deviance = 359.1257 GAMLSS-RS iteration 3: Global Deviance = 359.229 GAMLSS-RS iteration 4: Global Deviance = 359.2342 GAMLSS-RS iteration 5: Global Deviance = 359.2348 GAMLSS-RS iteration 2: Global Deviance = -42.3446
预测
应用函数也能够提取模型中特定散布参数在解释变量以后数据值处的线性预测、拟合值和特定项。
> predict(aids.1)1 2 3 4 5 6 7 8 1.322524 1.490931 1.996051 2.140244 2.540856 2.64334
为模型中的任何参数提供概要偏差,而不仅仅是对于散布参数。让咱们首先假如咱们有趣味拟合一个线性的工夫项(X)加上季度节令效应的一个因子,QRT,应用负二项式模型(I型)家族。这个模型被拟合为
GAMLSS-RS iteration 1: Global Deviance = 492.7247 GAMLSS-RS iteration 2: Global Deviance = 492.6375 GAMLSS-RS iteration 3: Global Deviance = 492.6373 > summary(aids1)
线性工夫项(Z)的系数为0.08744,其t值表明它是高度显着的。应用0.08744+-1.96x 0.005382能够失去该参数的95%置信区间,从而失去近似区间(0.0769,0.0980)。当初,咱们将应用函数Pror项来为线性项参数找到一个更准确的95%置信区间。请留神,模型公式中的此值批示要配置文件的参数。
prof.term(mo
如咱们所见,95%的剖面偏差置信区间为(0.0746,0.1009),与近似的(0.0769,0.0980)相差不远。
最受欢迎的见解
1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)R语言多元Logistic逻辑回归 利用案例
2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)面板平滑转移回归(PSTR)剖析案例实现
3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)R语言泊松Poisson回归模型剖析案例
5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)R语言混合效应逻辑回归Logistic模型剖析肺癌
6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%...)python用线性回归预测股票价格
9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%...)R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测