关于数据挖掘:R语言广义线性模型GLM线性最小二乘对数变换泊松二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

41次阅读

共计 3870 个字符,预计需要花费 10 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=26301

线性模型是统计学的根底,但它的意义远不止用尺子在几个点上画一条线。

我认为以散布为核心的观点使 generalised linear models (GLM) 也更容易了解。这就是这篇文章的目标。

我将应用冰淇淋销售统计数据来阐明不同的模型,从传统的线性最小二乘回归开始,到线性模型、对数变换线性模型,而后是狭义线性模型,即泊松(log ) GLM 和二项式(逻辑)GLM。

数据

这是我将应用的示例数据集。它显示了在不同温度下销售的冰淇淋单位。正如预期的那样,更多的冰淇淋在更高的温度下发售。

basicPlot()

挑战

我想创立一个模型来预测在任何温度下销售的单位,即便在可用数据范畴之外。

我特地感兴趣的是,当室外结冰时,我的模型在更极其的状况下会如何体现,比方温度降落到 0ºC 并且预测一个十分酷热的夏日在 35ºC。

线性最小二乘

我的第一种办法是用尺子在这些点上画一条直线,这样能够最大限度地缩小点和线之间的均匀间隔。这基本上是一条线性最小二乘回归线:

lqd <- lsfit
abline

这很容易,而且看起来并非不合理。

线性回归

我置信观测值 yi 是从具备均匀 μi 的正态(又名高斯)散布中得出的,这取决于温度 xi 和所有温度下的恒定方差 σ2。

在另一天,在雷同温度下,我可能售出了不同数量的冰淇淋,但在雷同温度下的许多天里,售出的冰淇淋的均匀单位将趋向于 μi。

因而,应用以散布为核心的符号,我的模型如下所示:

或者,残差,即察看值和预测值之间的差别,遵循均值为 0 且方差为 σ2 的高斯分布:

此外,方程

我认为 yi 的期望值与根底散布的参数 μi 雷同,而方差是恒定的。

以经典误差术语约定编写的雷同模型如下所示:

我认为以概率分布为核心的约定更分明地表明我的察看只是散布的一种实现。此外,它强调散布的参数是线性建模的。

为了在 R 中明确建模,我应用 glm 函数,将响应散布指定为高斯分布,并将从散布的预期值到其参数的链接函数指定为恒等式。

这就是 GLM 全部内容。

只管线性模型在察看到的温度范畴内看起来不错,但在 0ºC 时没有多大意义。

截距为 -159,这意味着客户在冰冻天均匀买 159 个单位的冰淇淋。

对数变换的线性回归

我能够先转换数据。现实状况下,我想确保转换后的数据只有正值。在这些状况下,我想到的第一个转换是对数。

因而,让咱们以对数尺度对冰淇淋销售进行建模。因而,我的模型更改为:

这个模型意味着我置信销售额遵从对数正态分布,yi∼log⁡N(μi,σ2),这意味着我认为较高的销售数字比拟低的销售数字更有可能,因为对数正态分布是右偏的。

只管模型在对数尺度上依然是线性的,但我必须记住将预测转换回原始尺度(记住 E[log⁡(yi)]≠log⁡(E[yi])):

display(logn.mod)

Plot()
lines
legend

该图看起来比之前的线性模型好一点,它预测我在 0ºC 时均匀会卖出 82 个冰淇淋:

exp(coef(lo.i.d)\[1\])

尽管这个模型更有意义,但仿佛高估了在越来越低的温度下销售。

此外,这个模型和之前的线性模型还有另一个问题。

假如的模型散布生成实数,但我的销售统计数据是单位,因而总是整数。只管售出的均匀单位数量可能是实数,但从模型散布中抽取的任何数据都应该是整数。

泊松回归

计数数据的经典办法是泊松散布。

泊松散布只有一个参数,这里是 μi,这也是它的期望值。μi 的链接函数是对数,这意味着我必须将指数函数利用于线性模型能力复原到原始比例。这是我的模型:

再说一遍,尽管我察看到的期望值是实数,但泊松散布只会产生整数,与理论销售额相符。

pos.md <- glm
display(poi.od)

Plot()
lines

这看起来很不错。系数的解释当初应该很分明了。

从系数中我能够看出,0ºC 时,我预计会卖出 exp⁡(4.45)=94 冰淇淋,而温度每升高 1 度,预计销量会减少 exp⁡(0.076)−1=7.9% .

到当初为止还挺好。我的模型合乎我的察看。此外,它不会预测负销售额,如果我应用上述模型给出的平均值从泊松散布进行模仿,我将始终只失去整数。

然而,我的模型还会预测,如果温度达到 32 摄氏度,我应该会卖出 1000 多个冰淇淋:

predict(pmod, newdata)

二项式回归

好的,让我这样思考这个问题:我有 800 个潜在销售量,我想理解在给定温度下销售的比例。

这表明胜利销售数量为 800 次的二项式散布。二项式散布的要害参数是胜利概率,即有人购买我的冰淇淋的概率作为温度的函数。

因而,我须要一条将销售统计数据映射到 0 到 100% 之间的概率的 S 形曲线。

一个典型的抉择是逻辑函数:

有了这个,我的模型能够形容为:

mize <- 1000
icectunity <- marksize - icenits

display(b.glm)

binred <- predict(biglm, type="response")*marsize
basicPlot

随着温度越来越高,该模型将预测销售将达到市场饱和,而迄今为止所有其余模型都将预测越来越高的销售。

我能够应用逻辑函数的倒数来预测 0ºC 和 35ºC 时的销售额:

# 0 摄氏度下的销售
plogis(coef(biglm)\[1\])*market.size

# 在 35 摄氏度下销售
plogis(coef(bnm)\[1\] +  coef(bglm)\[2\]\*35)\*maksie

概括

让咱们将所有模型放在一张图中,温度范畴为 0 到 35ºC。

p.lm <- predict
po.lm <- exp + 
                 0.5 * sumary(loim)$dispersion)
p.pis <- preict(poiso daaframe(tp=tm, type="response")
p.bn <- predict(biglm, datafrme(emptem), type="espns")*arke.ze 
baPlot

该图表显示了我的四个模型在 0ºC 到 35ºC 的温度范畴内的预测。只管线性模型在 10ºC 到 30ºC 之间看起来还能够,但它分明地表明了它的局限性。对数变换的线性模型和泊松模型仿佛给出了相似的预测,但将预测随着温度的升高,销售额将一直减速增长。我不置信这是有情理的,因为即便是最喜爱冰淇淋的人也只能在十分酷热的一天吃这么多冰淇淋。这就是为什么我会应用二项式模型来预测我的冰淇淋销量。

模仿

应用以散布为核心的视图来形容我的模型天然会导致模仿。如果模型很好,那么我应该无奈从模仿中辨认出实在数据。

在我所有的模型中,线性构造都是

或以矩阵表示法

其中 Ai,⋅=[1,xi] 和 v=[α,β],其中 A 是模型矩阵,v 是系数向量。

话虽如此,让咱们模仿原始数据中测量的温度的每个散布的数据,并与理论销售单位进行比拟。

n <- nrow(icre)
A <- modl.(uits ~ temp, data=cam)
set.seed(1234)
(rad.nal <- rnorm(n,
                     mean  A %*% cof(li.od),
                     sd = sqrt(sumary(liod)$esion)))

(ranlans <- rlnorm(n,
                         mnog = A %*% coef(.od),
                         sdlog =  sqrt(summary(loiod)$isin)))

(nd.ps <- rpois(n,
                   labd = exp(A %*% coef(piod))))

(ra<- rbinom(n,
                   size = meze,
                   prob = plogis(A %*% coef(b.m))))

bacPlot
cols <- adscor(c
points(iceram$tmp,  pch=19, col=cols\[1\])

该图表仅显示每个模型的一个模仿,但显示了一些乏味的方面。我不仅看到泊松和二项式模型生成整数,而高斯和对数变换的高斯预测实数,我留神到红点处对数正态分布的偏度为 19.4ºC。

此外,线性模型预测高于和低于平均值的可能性雷同,在 16.4ºC 时,预测仿佛有点低 – 可能是后果。

此外,对数转换和泊松模型在 25.1ºC 时的高销售额预测也不意外。

同样,二项式模型的模仿仿佛是最事实的。

论断

我心愿这篇文章能阐明狭义线性模型背地的直觉。

将模型拟合到数据须要的不仅仅是利用算法。特地值得思考的是:

  • 期望值的范畴:它们是有界的还是范畴从 -∞ 到 ∞?
  • 察看类型:我冀望实数、整数还是比例?
  • 如何将散布参数与观测值分割起来

最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5.R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7. 在 R 语言中实现 Logistic 逻辑回归

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0