关于数据挖掘:数据分享R语言零膨胀泊松回归ZEROINFLATED-POISSONZIP模型分析露营钓鱼数据实例估计附代码数据

全文链接：http://tecdat.cn/?p=26915

最近咱们被客户要求撰写对于零收缩泊松回归的钻研报告，包含一些图形和统计输入。

零收缩泊松回归用于对超过零计数的计数数据进行建模。此外，实践表明，多余的零点是通过与计数值不同的过程生成的，并且能够独立地对多余的零点进行建模。因而，zip模型有两个局部，泊松计数模型和用于预测多余零点的 logit 模型

零收缩泊松回归示例

示例。野生动物生物学家想要模仿公园的渔民捕捉了多少鱼。游客会被问到他们勾留了多长时间，团队中有多少人，团队中是否有儿童以及捕捉了多少鱼。一些游客不钓鱼，但没有对于一个人是否钓鱼的数据。一些钓鱼的游客没有钓到任何鱼，因而数据中存在多余的零，因为人们没有钓鱼。

数据阐明

咱们有 250 个去公园的个人的数据（ 查看文末理解数据获取形式 ）。每个小组都被询问他们捕捉了多少鱼（count），小组中有多少孩子（child），小组中有多少人（persons），以及他们是否带露营者到公园（camper）。

让咱们看一下数据。

summary(zib)

## 直方图的X轴为对数10标
ggplot(znb, aes(ount))

点击题目查阅往期内容

R语言泊松Poisson回归模型剖析案例

左右滑动查看更多

您可能会思考的分析方法

以下是您可能遇到的一些分析方法的列表。列出的一些办法是相当正当的，而另一些办法要么得宠，要么有局限性。

零收缩泊松回归。
零收缩负二项式回归——负二项式回归在扩散数据时体现更好，即方差远大于平均值。
一般计数模型。
OLS 回归——您能够尝试应用 OLS 回归剖析这些数据。然而，计数数据是高度非正态的，并且不能通过 OLS 回归很好地预计。

零收缩泊松回归

summary(m1)

输入看起来十分像 R 中两个 OLS 回归的输入。在模型调用下方，您会发现一个输入块，其中蕴含每个变量的泊松回归系数以及标准误差、z 分数和 p 值系数。接下来是对应于通货膨胀模型的第二个块。这包含用于预测多余零点的 logit 系数及其标准误差、z 分数和 p 值。

模型的计数和收缩局部中的所有预测变量都具备统计显着性。该模型对数据的拟合显着优于空模型，即仅截距模型。为了证实状况的确如此，咱们能够应用对数似然差别的卡方测验将以后模型与没有预测变量的空模型进行比拟。

mnl <- update(m1, . ~ 1)

因为咱们在残缺模型中有三个预测变量，因而卡方测验的自由度为 3。这会产生较高的显着 p 值；因而，咱们的整体模型具备统计学意义。

请留神，下面的模型输入并没有以任何形式表明咱们的零收缩模型是否是对规范泊松回归的改良。咱们能够通过运行相应的规范 Poisson 模型而后对这两个模型进行 Vuong 测验来确定这一点。

vuong(p, m)

Vuong 测验将零收缩模型与一般泊松回归模型进行比拟。在这个例子中，咱们能够看到咱们的测验统计量是显着的，表明零收缩模型优于规范泊松模型。

咱们能够应用自举取得参数和指数参数的置信区间。对于泊松模型，这些将是事件危险比，对于零通胀模型，劣势比。此外，对于最终后果，可能心愿减少反复次数以帮忙确保后果稳固。

dt(coef(m1, "count"))

dpt(coef(m1, "zero"))

res <- boot(znb, f, R = 1200, pralel = "snow", ncus = 4)
## 输入后果
res

后果是交替的参数估计和标准误差。也就是说，第一行具备咱们模型的第一个参数估计值。第二个具备第一个参数的标准误差。第三列蕴含自举的标准误差。

当初咱们能够失去所有参数的置信区间。咱们从原始比例开始，应用百分位数和偏差调整的 CI。咱们还将这些后果与基于标准误差的置信区间进行比拟。

## 带百分位数和偏差调整的CI的基本参数估计值


## 增加行名
row.names(pms) <- names(coef(m))
## 输入后果
parms

## 与基于失常的近似值相比
confint(m1)

bootstrap置信区间比基于正态的近似值要宽得多。应用持重标准误差时，自举 CI 与来自 Stata 的 CI 更加统一。

当初咱们能够预计泊松模型的事件危险比 (IRR) 和逻辑（零通胀）模型的劣势比 (OR)。

## 带百分位数和偏差调整的CI的指数化参数估计值
exps <- t(sapply(c(1, 3, 5, 7, 9), function(i) {
  out <- boot.ci

为了更好地了解咱们的模型，咱们能够计算预测变量的不同组合所捕捉的鱼的预期数量。事实上，因为咱们基本上应用的是分类预测，咱们能够应用函数来计算所有组合的期望值来创立所有组合。最初咱们创立一个图表。

ggplot(neda1, aes(x = cld, y = pat, colour = factor(pos))) +
  geom_point() +
  geom_line() +
  facet_wrap(~cmp)

须要思考的事项

因为 zip 同时具备计数模型和 logit 模型，因而这两个模型中的每一个都应该具备良好的预测器。这两个模型不肯定须要应用雷同的预测变量。
零收缩模型的逻辑局部可能会呈现完满预测、拆散或局部拆散的问题。
计数数据通常应用裸露变量来批示事件可能产生的次数。
不倡议将零收缩泊松模型利用于小样本。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R语言零收缩泊松回归ZERO-INFLATED POISSON（ZIP）模型剖析露营钓鱼数据实例预计IRR和OR》。

点击题目查阅往期内容

R语言贝叶斯Poisson泊松-正态分布模型剖析职业足球比赛进球数
R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器预计变点指数分布剖析泊松过程车站等待时间
R语言和Python用泊松过程扩大：霍克斯过程Hawkes Processes剖析比特币交易数据订单达到自激过程工夫序列
数据分享|R语言狭义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归剖析冰淇淋销售工夫序列数据和模仿
生态学模仿对狭义线性混合模型GLMM进行功率（效用、效力、效劳）剖析power analysis环境监测数据
狭义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和穿插验证
无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据
R语言贝叶斯狭义线性混合（多层次/程度/嵌套）模型GLMM、逻辑回归剖析教育留级影响因素数据
R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例
R语言用lme4多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R语言狭义线性模型GLM、多项式回归和狭义可加模型GAM预测泰坦尼克号幸存者
R语言用Rshiny摸索lme4狭义线性混合模型（GLMM）和线性混合模型（LMM）
R语言应用bootstrap和增量法计算狭义线性模型（GLM）预测置信区间
R语言狭义线性模型(GLMs)算法和零收缩模型剖析
R语言中狭义线性模型(GLM)中的散布和连贯函数剖析
R语言中GLM(狭义线性模型)，非线性和异方差可视化剖析
R语言中的狭义线性模型（GLM）和狭义相加模型（GAM）：多元（平滑）回归剖析保险资金投资组合信用风险敞口
用狭义加性模型GAM进行工夫序列剖析
R和Python机器学习:狭义线性回归glm，样条glm，梯度加强，随机森林和深度学习模型剖析
在r语言中应用GAM（狭义相加模型）进行电力负荷工夫序列剖析
用狭义加性模型GAM进行工夫序列剖析
R和Python机器学习:狭义线性回归glm，样条glm，梯度加强，随机森林和深度学习模型剖析
在r语言中应用GAM（狭义相加模型）进行电力负荷工夫序列剖析

关于数据挖掘:数据分享R语言零膨胀泊松回归ZEROINFLATED-POISSONZIP模型分析露营钓鱼数据实例估计附代码数据

全文链接：http://tecdat.cn/?p=26915

零收缩泊松回归示例

数据阐明

您可能会思考的分析方法

零收缩泊松回归

须要思考的事项

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:数据分享R语言零膨胀泊松回归ZEROINFLATED-POISSONZIP模型分析露营钓鱼数据实例估计附代码数据

全文链接：http://tecdat.cn/?p=26915

零收缩泊松回归示例

数据阐明

您可能会思考的分析方法

零收缩泊松回归

须要思考的事项

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复