原文链接:http://tecdat.cn/?p=24127

介绍

 鲍鱼是一种贝类,在世界许多中央都被视为美味佳肴。铁和泛酸的极好起源,是澳大利亚、美国和东亚的营养食品资源和农业。100 克鲍鱼可提供超过 20% 的每日举荐摄入量。鲍鱼的经济价值与其年龄呈正相干。因而,精确检测鲍鱼的年龄对于养殖者和消费者确定其价格十分重要。
然而,目前决定年龄的技术是相当低廉且低效的。
养殖者通常会切开贝壳并通过显微镜计算环数来预计鲍鱼的年龄。因而,判断鲍鱼的年龄很艰难,次要是因为它们的大小不仅取决于它们的年龄,还取决于食物的供给状况。而且,鲍鱼有时会造成所谓的“发育不良”种群,其成长特色与其余鲍鱼种群十分不同。这种简单的办法减少了老本并限度了其遍及。咱们在这份报告中的指标是找出最好的指标来预测鲍鱼的环,而后是鲍鱼的年龄。

数据集

背景介绍

这个数据集来自一项原始(非机器学习)钻研。
数据集可在UCI机器学习资源库网站上找到。
有30多篇论文援用了这个数据集。

从原始数据中删除了有缺失值的例子(大多数预测值缺失),间断值的范畴被缩放用于NA(通过除以200)。在本剖析中,咱们将通过乘以200的形式将这些变量复原到其原始模式。

数据集中的观测值总数:4176

数据集中的变量总数:8个

给出的是属性名称、属性类型、测量单位和简要形容。环数是要预测的值,是一个间断值。

变量列表

变量

数据类型

测量

形容

性别

分类(因子)

M、F 和 I(婴儿)

长度

间断

毫米

最长壳测量

直径

间断

毫米

垂直长度

高度

间断

毫米

带壳肉

整体分量

间断

整只鲍鱼

去壳分量

间断

肉的分量

内脏分量

间断

肠道分量

外壳分量

间断

晒干后

鲍鱼的环

间断

+1.5 给出以年为单位的年龄

上面是剖析


“应用回归预测鲍鱼的年龄”

办法

#加载所有必要的软件包 library(readr)library(dplyr)library(car)library(lmtest)library(ggplot2)

数据汇总与统计

readcsv("abalone.csv")
balne$Sx <- s.acor(aalne$Sex)

kale(abaoe\[1:10,\],fomt 'madw')

分类变量

数值变量

看一下数据集的摘要,咱们能够看到,数据在雄性、雌性和婴儿这三个因素程度之间的散布是相当平均的。

此外,咱们还看到有四种不同的分量测量方法,即:全重、去壳重、内脏重和壳重。全重是其余分量预测指标与剥壳过程中损失的未知水/血品质的线性函数。咱们还察看到,预测器高度的最小值是0。

因变量

 因果变量Rings蕴含在数据集中。它被测量为切割和查看鲍鱼后察看到的环的数量。尽管它不能间接示意一个给定的鲍鱼的年龄,但它能够或多或少完满地确定它。一个鲍鱼的年龄等于环数+1.5。因为这种关系是牢靠的,环数将被视为因变量。数据中测量的环数从1到29不等,大多数鲍鱼的环数在5到15之间。散布也有轻微的正偏斜,但没有问题。(见上面的图)

配对图

pairs(aalone, es(colour =Sex, aph = 0.)

从配对图中察看到的状况。

首先要留神的是数据的高度相关性。例如,直径和长度之间的相关性十分高(约98.7)。

同样,Whole\_weight仿佛与其余分量预测因子高度相干,是Shucked\_weight、Viscera\_weight和Shell\_weight之和。

其次,预测因子Sex的散布与所有其余预测因子的因子程度值雌性和雄性十分类似。

对于雌性和雄性的因子程度,散布的形态也是十分类似的。

咱们能够思考从新定义这一特色,将性别定义为婴儿与非婴儿(其中非婴儿=雌性和雄性都是)。

大多数的abalones环都在5到15之间。
 

数据品质

减少变量。咱们将更新鲍鱼数据集,创立名为 "婴儿 "的新变量,它的值将基于性别变量的原始值。当性别变量为I时,它的值为I,否则为NI。
咱们还察看到,预测高度的最小值是0,实际上这是不可能的,咱们将考察这些察看后果,认真钻研。

##高度为0的数据质量检查kable(abloe\[aban$Height == 0,\])

咱们看到,有两个观测值的高度可能没有被正确记录,因为其余预测因子仿佛都有无效的值。另外,如果咱们看一下预测因子Whole_weight,咱们会发现这些值与其余察看值相比真的很小,而且低于第一个四分法。这通知咱们,这可能不是一个数据谬误,因而咱们不能将这些数据从咱们的数据集中排除。

咱们还将增加一个名为weight.diff的新变量。咱们能够在摘要中看到有四种不同的分量测量方法,即Whole\_weight、Shucked\_weight、Viscera\_weight和Shell.weight。Whole\_weight是其余分量预测因子的线性函数,在剥壳过程中损失的水/血的品质未知。
 

str(aane, give.attr= FASE)

咱们看到变量Whole\_weight应该是Shucked\_weight、Viscersa\_weight和Shell\_weight的线性函数,咱们能够写成Whole\_weight = Shucked\_weight + Viscera\_weight + Shell\_weight + 剥壳过程中损失的未知水/血品质。

然而,当咱们计算Whole_weight和其余分量变量之间的差别时,咱们发现有153个观测值违反了这一规定,也就是说,这仿佛不合乎逻辑,可能是记录数据时的谬误。

如果咱们绘制新增加的weight.diff变量的直方图,咱们能够看到,当weight.diff为正数时,有一些察看后果。
 

#确定没有正确记录的察看后果#不合乎逻辑的察看后果的柱状图ggplt(aalone, as(x=weight.diff)) +,ill=rb(1,.4,0,.7), bins = 30)

咱们来看看其中的一些记录。
 

nrow(ablon\[abaoneweihtdff < 0,\])

请留神,总共有153个观测值的综合权重超过了Whole_weight。当咱们看了10个这样的观测值时,仿佛其余的值都是正确的,没有任何相似之处,所以咱们确信这可能是一个数据输出谬误。因而,咱们将保留这些察看后果,以便进一步剖析。

咱们将首先在训练和测试中潜入咱们的数据集。数据集将以70/30的比例在训练和测试之间进行宰割,并随机抉择观测值。
 

训练和测试拆分

set.ee(4)#应用70/30办法在训练和测试中宰割数据ndxes <-spl(1:owabaone, size= 0.3  nrw(bone))aboetrai <- ablon\[-indxs,\]abetest <- abloneindxe,\]

 咱们曾经开始用所有的变量拟合一个加法模型,并将钻研参数的重要性。在此基础上,咱们将批改咱们的模型。当初咱们将应用变量Sex的原始值,它的因子程度为F、I和M。

加性多元线性回归模型

summary(abneadd)

在第一个加性模型中,留神因子程度雌性是性别变量的参考程度。

在用所有预测因子拟合加性模型后,咱们能够看到,除了长度之外,测试统计显示所有变量都是显著的。正如咱们之前从配对图中看到的那样,长度和直径的预测因子是高度相干的。咱们还看到,不同分量的预测因子也是显著的,只管它们应该是彼此的线性函数。
 

RMSE 分数

kable(rmse(aaloe_ad,"Aditve odel"))

 咱们将计算方差收缩因子,以发现数据集存在的多重共线性问题。

多重共线性

vif

 咱们看了所有变量的变量膨胀系数,仿佛所有的预测因子都有多重共线性问题,除了咱们之前在配对图中看到的性别和身高。预测因子Whole_weight的VIF值最高,因为它是其余体重的线性函数。
Whole_weight & Rings 之间的偏相关系数:咱们将首先计算Whole_weight 变量和因变量(Rings)的偏相关系数 。

#查看高共线性关系变量的变异性wole\_wigt\_it <- lm(holweight ~Sx LnhDametr + eit +Sucked\_ght + Visrwght Shl\_wegh data=alotrin)

变量增加图

同样地,变量增加图将这些残差相互之间的关系可视化。将因变量的残差与预测的残差进行回归,并将回归线增加到图中,也是有帮忙的。
 

cor(resid(whole_weight),resid(addwtouwolwigh))

cre\_plot(baead\_itht\_whe\_eght,wleeghtfit)

没有Whole_weight的加法模型的方差收缩因子

但直径和长度的VIF还是很高。
 

vif(abaln\_ddithu\_whoeeiht)

直径和环之间的偏相关系数

咱们当初将 在模型中Diameter 没有Whole_weight变量的状况下计算变量和因变量(环) 的偏相关系数 。

mete\_i <- lm(Diameter ~ Sex + Length + Height + Shucked\_weight + Viscera\_weight + Shell\_weight) abaoned\_sal <- lm(Rings ~ Sex + Length + Height + Shucked\_weight + Viscera\_weight + Shell\_weight)

这两个残差的相关性接近于零,这意味着未被性别、长度、高度、去壳分量、内脏分量和贝壳分量解释的环的变动与未被性别、长度、高度、去壳分量、内脏分量和贝壳分量解释的直径的变动的相关性很小。因而,在模型中退出直径可能没有什么益处。 

cor(resid(damer\_it),resid(abonead\_mll))

creaevarlt(ablone\_d\_smaldiaete_fi)

没有 Whole_weight & Diameter 的加法模型的方差收缩因子

vif(ablonadd_mll)

当初的VIF要低得多。咱们将同时应用abalone\_add和abalone\_add_small进行剖析。
 

abalone\_add\_small 的 RMSE 分数

kable(rmse(abalone\_add\_small

方差分析 _F_ 测验

anova(small,ablone_add)

依据Anova测验,咱们能够回绝无效假设。

当初让咱们尝试对加性模型进行AIC和BIC的参数抉择。

#在加性模型上运行AIC和BICstep(abae_add, dtonbackward" trace0)

step(abalon_ad, direction="backward"

咱们应用之前Anova F测试中的最佳模型(abalone_add)运行了AIC和BIC办法,AIC和BIC都抉择了没有Length预测器的雷同模型。

咱们抉择了BIC的模型(因为两个模型都是一样的),并将绘制拟合与残差和QQ正态图。
 

加性模型假如

assumptions(aln\_odad\_bic,"baln_meddbic")

这里咱们看到,拟合图与残差图表明,模型违反了恒定变异,仿佛有一种模式,即残差随着拟合值的减少而减少。

正态QQ图也有肥尾,表明误差可能不是正态分布。

表明咱们可能须要寻找改良这个模型。只管多重共线性对预测没有影响,但这看起来是一个极其的案例,有一个显著的模式违反了模型的假如。这能够通过几种技术来实现,例如变量抉择和转换。让咱们来看看变量抉择办法,看看哪些变量能够用来创立另一个不违反恒定变异和正态性假如的模型。

穷举搜寻

#穷举搜寻 allabaone\_add<- sumr(ruetsings  Sex + Legth  Diamter + Hight + Whole\_eght + Shllweigh + Shucke\_weght + Viscea\_weigh , data=ablontra))

 

for(i in c(1:8)){  vr\_nm\[i\]=sum(all\_abwh\[i,\])-1}plot(var\_num,all\_a)

(besr <- which.max(adjr2))

alabaoe_ad$hch\[bsj2,\]

#画出模型参数与AIC的关系图n * log(a\_aln\_dd$rs / n) + 2 * (2:p)

plot(aloe\_mo\_ac ~ I(2:), ylab = "AIC"   ")

当初咱们看到了一些乏味的后果。之前咱们看到t测验显示一些预测因子是不显著的,然而当咱们进行穷举搜寻时,它表明咱们的确须要所有的预测因子来创立AIC值最低的模型。从图中能够看出,AIC值随着8个参数的模型大小而降落,并且是最小的。咱们将再次应用数据集中的所有预测因子来创立模型,并寻找变量转换技术。

接下来,为了稳固恒定的变动,咱们将进行一些因变量和预测变量的转换。

因变量转换

Box-Cox 变换

稳固方差的办法之一是应用对数转换因变量。为了失去正确的程序,咱们应用了boxcox办法,该办法倡议应用$0的值。因为在0的值上,对数可能性最大,而且区间十分靠近。因而,咱们将应用log(Rings)模式的转换,用于咱们的加性模型。 

boxcox(abloe_ad lambda = seq(-0.1, 0.1, by = 0.1))

Additive 模型与对数因变量转换

summary(abaone\_dd\_log)

将因变量进行对数转换后,咱们看到t测验是显著的,它也减少了先前加法模型的调整r平方值。咱们还看到,在这个模型中,简直所有的预测因子都是显著的。让咱们检查一下假如。
 

模型假如

上面的拟合与残差图和Q-Q图显示,对因变量进行对数转换后,后果有了很大的改善。

assumptionsba

均方根分数

kable(log_rmse(abalo)

然而,咱们没有看到RMSE分数有任何改善。恒定方差问题仿佛失去了改善,QQ图也看起来不错。

下一步,咱们将对预测器进行一些转换,并评估模型,看看这是否有助于进一步提高预测的准确性。
 

Predictor 转换

回归剖析

为了使咱们可能进行任何预测器的转换,首先让咱们看看每个预测变量和因变量的关系。转换将取决于数据的形态以及预测因子和因变量之间的关系。

scatter(abale\_tra$Lngt,abaone\_train$Rngs,"Lenth""Rngs"),

咱们能够看到环和预测指标长度、直径、高度的关系简直是线性的。咱们还能够看到,分量预测指标之间的关系并不是真正的线性关系,而是能够从多项式转换中受害。因而,让咱们应用高阶多项式创立一个模型,即所有分量预测指标Whole\_weight、Viscera\_weight、Shucked\_weight和Shell\_weight。
 

多项式

在模型中应用二阶项后,模型假如雷同。

asumptons(abloe\_dd\_oly2,"Poly2 Log Model")

均方根分数

kable(log_rmse(abaoly2,"Poly2 Log Moel)

均方根分数

 在这里,咱们进行了一些变量转换。首先,咱们依照Boxcox办法的倡议对因变量进行了对数转换,并依照对数图的倡议对权重预测因子进行了多项式转换。在拟合模型后,咱们看到rmse比以前的模型要低,与以前拟合的加性模型相比,它也有更好的恒定变异和Q-Q图。因为咱们曾经进行了水平为2的多项式转换,让咱们尝试拟合水平为3的另一个模型并查看其意义。

方差分析 _F_ 测验

anova(abaloe\_addpoy2,aalon\_add_oy3)

均方根分数

kable(log\_rmse(abaloe\_dd_pol4

 

方差分析 _F_ 测验

anova

均方根分数

kable(log_rmse(abloneaddpoly5

方差分析 _F_ 测验

anova

  • 咱们再次看到测试对于较低的 rmse 是显着的。让咱们尝试拟合度数为 6 的模型。

均方根分数

kable(log\_rmseaban\_dd_poly6

方差分析 _F_ 测验

anova

当初在用多项式次数为 6 进行拟合后,咱们看到即便 F 测验表明它很重要,但测验的 RMSE 回升了。这表明咱们当初可能曾经开始适度拟合数据,即咱们的模型十分靠近地拟合数据,这是咱们不心愿产生的。

在此之前,咱们看到多项式次数为 5 和 4 的测试和训练 RMSE 之间存在十分轻微的差别。测试 RMSE 简直雷同。因而,咱们违心就义绝对于更简略模型的 RMSE 十分渺小的改良(第三个小数点)。因而咱们抉择多项式次数为 4 的模型,即模型 abalone\_add\_poly4。
 

for(d in um_poly){  abalone\_add\_polyestmodel(d)    rmse=g\_log\_mse(balone\_ad\_poly)  train_rmse\[d\]rmse$tran  test_re\[d\]=rse$st}plot(train_rmse

咱们看到多项式次数为 5 和 4 的测试和训练 RMSE 之间存在十分轻微的差别。测试 RMSE 简直雷同。因而,咱们违心就义绝对于更简略模型的 RMSE 十分渺小的改良。因而咱们抉择多项式次数为 4 的模型,即模型 abalone\_add\_poly4。

既然咱们曾经抉择了模型,让运行 AIC 和 BIC 办法进一步抉择适合的模型,看看咱们是否能够做进一步的改良。

当初让咱们计算和比拟高阶项的 RMSE,并绘制训练和测试数据的均方根误差。
 

多加法模型上的 AIC 和 BIC:

  • 既然咱们曾经抉择了模型,让咱们运行 AIC 和 BIC 办法来进一步抉择适合的模型。
step(abane\_ad\_poy4, directin="backwrd", trac=FALSE)

Compare AIC 与 BIC 模型参数

_aic$call\[2\]

add_bic$call\[2\]

Anove F 测验

anova(abalone_mode

  • 抉择的模型 BIC 中没有预测器 Length 。Anova F 测验的 p 值很大,因而咱们无奈回绝原假如。abalone_model_add_bic 模型很重要,因而咱们将持续推动并查看模型假如。

模型假如(AIC 和 BIC):

model_assumption

 

  • 在这种状况下,恒定方差和正态性看起来都不错。

RMSE 分数 - AIC

kable(log\_rmse(abaone\_mde_down')

RMSE 分数 - BIC

kable(log\_rmse(abalone\_model\_add\_bic,paste("Additive Model - Degree 4 - BIC")), digits = 4,format = 'markdown')

在应用AIC 和 进行变量抉择后 BIC,咱们从中抉择了模型 BIC 并查看了 t 统计量和假如。乏味的是, BIC 模型抛弃了很少的预测变量,但也具备与咱们开始应用的原始模型(多项式次数为 4 的模型)类似的测试 RMSE。这表明咱们能够删除一些变量并依然放弃较低的 RMSE。这将咱们带到下一个批改和引入BIC 上述模型抉择的变量之间的交互项 。

来自BIC 模型的模型假如 也看起来更好。

接下来,咱们将介绍交互项,并将尝试应用BIC 办法倡议的预测变量来拟合模型 。
 

交互模型

log(Rings) ~  Height + Diameter + poly(Whole_weight, 4) +  poly(Viscera\_weight, 4) + poly(Shucked\_weight,4) + poly(Shell\_weight, 4) + Sex + Diameter:poly(Shucked\_weight, 4) + poly(Shucked_weight,  4):Sex

RMSE 分数

方差分析 _F_ 测验

anova

在拟合交互模型并应用最佳可加模型执行 F 测验后,咱们看到该测验表明交互模型是一个显着模型,具备改良的调整 r 平方值。RMSE 也变低了 因为它更好地解释了可变性,咱们当初将抉择交互模型并尝试在交互模型上运行 AIC 和 BIC。

同时,咱们会比拟交互模型的多个度数,以计算和比拟高阶项的 RMSE,并绘制训练和测试数据的均方根误差。
 

for(d in num_poly){  ablone\_int\_poly=test_itmodel(d)   rmse=et\_lg\_rmseaaloneint_poly)  trainrse_int\[d\]=rmse$train  test\_mse\_it\[d\]=rme$tst}plot(tran\_rse\_n

 

  • 咱们能够看到,随着多项式次数的减少,RMSE 越来越低。只管对于此剖析而言,RMSE 的这种改良十分渺小,咱们能够疏忽这种对模型简略性的改良。思考到这一点,咱们能够看到多项式次数为 4 的模型性能更好,因而咱们将持续应用该模型。

交互模型上的 AIC 和 BIC

step(aalone_int, diretin="backar", trac=FALSE)step(aalone_nt, diection="bacward", =loce=ALE)

RMSE 分数 - BIC/AIC

kable(log\_rmse(abalone\_model\_int\_bic,paste("Interaction Model - Degree 4 - BIC")), digits = 4,format = 'markdown')

在咱们的交互模型上运行 AIC 和 BIC 后,咱们看到该模型抉择了雷同的模型。因为这是咱们迄今为止看到的最好的模型之一,具备正当的复杂性,咱们将把它视为咱们比拟的候选模型之一,作为本剖析的最佳拟合模型。

谈到候选模型,在详尽的搜寻过程中,咱们曾经看到,当咱们应用所有预测变量时,模型附带了最低的 AIC。咱们能够尝试构建一个模型,其中蕴含所有具备交互作用和多项式次数的预测变量,并与咱们抉择的第一个候选模型进行比拟,看看它的体现如何。因而,让咱们拟合一个蕴含所有预测变量的模型。
 

在最后的数据分析中,咱们发现Sex 因子程度为 female 和 的分类变量的散布 male 极其类似。因而,咱们决定将这两个因子程度合并为一个,并且总因子程度为 2 infant 和 non-infant。咱们创立了新变量 Infant。这里 non-infant 代表 female 和 male 两者。咱们也通过这种办法进行了剖析(能够在本报告的附录局部找到)。

让咱们看看 Infant 模型剖析,看看这个模型如何与咱们下面抉择的模型相抗衡。
 

婴儿模型剖析

咱们探讨过针对此剖析采纳不同的办法。咱们引入了一个新的分类预测变量名称 Infant。咱们应用现有的Sex 具备 3 个因子程度的分类预测变量,并创立了一个具备 2 个因子程度的新分类预测变量 。咱们这样做是因为咱们从原始分类预测变量female 和 中 确定了 2 个因子程度上的类似散布 male。新的因素程度当初是 I (婴儿 = 雌性和雄性组合)和 NI (非婴儿)。

这个新分类的剖析与下面的剖析齐全一样,所以咱们将用起码的解释和细节疾速进行这个剖析。
 

summary(abae\_d\_nf)

均方根分数

rmse  <- funcin(atual predicted) {  sqrt(mean((actual - predicted ^ 2))}

加性模型假如

model_assumption

Box-Cox 变换

boxcox(abon_adinf,lmda  seq(-0.1, 0.1, by = 0.1))

具备对数因变量转换的附加婴儿模型

summary(abaln\_ad\_log)

均方根分数

kable(log\_mseabalone\_d\_lo\_f,"")

加性模型假如

model_assumptions

多项式模型

lm(log(Rings) ~  Diameter + Length + Height + poly(Whol\_weiht,3) + poly(Viscra\_weight,3) + polyShuckwegt,3) + poly(Selweight,3) + Infant, data=abaone_rain

均方根分数

kable(log\_rmse(abalnead\_poly

多项式模型假如

model_assumption

方差分析 F 测验

  ``````anova

交互模型

lm(log(Rings) ~  Height + Diaeter + poly(Whole_weight, 4) +  poly(Viscera\_weght, 4) + poly(Shucke\_weght,4) + poly(Shel\_weight, 4) + Infant + Diameter:poly(Shckedweight, 4) + poly(Shckd\_weight,  4):Infant, data=aboe_tain)

均方根分数

kable(log\_rms(abaoe\_int_infan,"

交互模型假如

model_assumption

方差分析 F 测验

anova

在这里,咱们抉择性能最佳的交互模型作为咱们的候选模型之一。该模型具备较低的复杂性以及最低的 rmse。

咱们在这里看到的是,与前两个残缺模型相比,该模型在未见数据(测试数据)上的 rmse 最低。除此之外,这个模型也没有前两个简单,这些个性使得这个模型成为咱们抉择的候选模型之一。

当初,因为咱们有一些咱们喜爱的候选模型,让咱们将它们互相比拟并寻找最佳模型。
 

候选模型

从下面的剖析中,咱们抉择了多项式次数为 4 的交互模型,因为咱们曾经看到它具备最低的测试 rmse 之一,并且具备良好的模型假如。咱们将把它作为第一抉择的候选模型之一。该模型蕴含一些预测变量,而不是具备高度多重共线性的预测变量。这个模型是 abalone\_model\_int_bic。

另一个选定的模型是所有预测变量都具备类似较低 rmse 的交互模型。尽管这个模型将有更多的参数,因而是一个比晚期模型更简单的模型,但因为咱们的指标是预测,咱们不关怀模型的复杂性。这个型号是 abalone\_int\_full

另一种候选模型将是具备 2 个因子程度的分类变量的交互模型。在开始或咱们的剖析中,咱们看到该预测变量的散布在级别之间类似 male , female 因而咱们决定引入一个新变量,该变量基本上有 2 个级别,婴儿和非婴儿,其中非婴儿 = 雄性和雌性。该模型也是多项式次数为4的交互模型 。这个模型是 abalone\_int\_infant。 注:(附录局部减少了应用婴儿预测器的加法模型和相干剖析)。应用分类预测变量和具备3 值和 2 值的因子程度进行剖析的整个过程 是雷同的。

候选模型的 RMSE 比拟

  • 候选模型1(abalone\_model\_int_bic)
  ``````kable(log\_rmseabaone\_modlint_bic

  • 候选模型2(abalone\_int\_\_candidate_full)
kable(log\_rmse(aalone\_int_l,pte

kable(log\_rmse(abalone\_nt_nan
  • 候选模型 3 (abalone\_int\_infant)
  • 从下面咱们能够看到, 候选模型 3 (abalone\_int\_infant) 在所有三个模型中体现最好。

候选模型的模型假如

  • 候选模型1(abalone\_model\_int_bic)

候选模型的模型假如

  • 候选模型1(abalone\_model\_int_bic)
model\_assumptions(abalone\_model\_int\_bic,"Candidate model 1")

  • 候选模型 2 (abalone\_int\_full)
  ``````model_assumption

  • 候选模型 3 (abalone\_int\_infant)
model_assumption
  • 基于这些图,咱们能够看到咱们所有的候选模型都很好地满足了恒定方差和正态性假如。
  • 接下来,咱们将比拟所有这些候选模型的预测和置信区间,并察看数据中的任何影响点。让咱们看看它。

异样察看样本:高杠杆、离群点和影响点

咱们将查看每个候选模型的训练数据集中存在的异样察看后果。首先咱们将别离寻找高杠杆点、离群点和影响点,而后通过公共数据点失去具备高杠杆、离群点和影响力的数据点。

候选模型1(abalone\_model\_int_bic)

## \[1\] 16
  • 咱们看到有 16 个察看值是高杠杆、异样值和影响点。

 

候选模型2(abalone\_int\_full)

length(comon\_mdel\_2)
## \[1\] 15
  • 在这个模型中,咱们看到有 15 个察看值是高杠杆、异样值和有影响的点。

 

候选模型3(abalone\_int\_infant)

length(comon\_odl\_3)
## \[1\] 19
  • 这个模型有 19 个这样的察看后果,它们是高杠杆、离群点和有影响力的点。

 

所有候选模型之间的异样察看

  • 咱们当初曾经编制了候选模型中常见的察看后果列表。让咱们来看看这些,看看是否有任何相似之处。
  `````` intersect(commodl,intersect(commodel1,omomodl_2))length(cmmondaa)
## \[1\] 13

咱们立刻留神到的第一件事是,咱们最后在数据集中确定为不合逻辑或数据输出谬误的察看后果很少。这些察看后果具备负权重差别,这是不可能的。这是有情理的,因为在记录此数据时可能会呈现一些谬误。

另一种模式是其中一些察看后果的整体权重与均匀整体权重相比超过 2。此外,这些察看后果具备大量环,即这些是较老的鲍鱼。

因为存在其余合乎异样察看条件的察看后果,因而总体而言,它们之间没有特定的模式。因而,咱们不能从咱们正在思考进行预测的模型和剖析中排除这些。

咱们将应用平行坐标图来可视化后果局部中的任何显著模式。

让咱们看看一旦咱们删除这些数据集,咱们的候选模型的体现如何。
 

删除异常察看后的RMSE 分数

接下来,咱们将通过从训练数据集中删除异常察看并计算测试数据集的 RMSE 分数来执行疾速试验。

obs\_rmse <- get\_log\_rmse\_obs(lmlog(_updated)result <- ata.frae( "Mdel" = modelnames,                      "RMSE Train" = c(                                                     ),                            "RMSE Test" = c(                                                                              "RMSE Train all Data" = c(                                  "RMSE Test all data" = c(                                              get\_lo\_ms(aaloe\_modl\_intbic)$test,                          

  • 乏味的是,所有在没有异样察看的状况下训练的模型在测试数据上产生了更好的 rmse。在上表中咱们能够看到不同RMSE值的比拟。
  • 因为这些不寻常的察看没有揭示任何特定的模式或任何不寻常的行为,咱们无奈从咱们的数据集中删除这些,并将应用候选模型持续咱们的剖析。

预测和置信区间

#model 1vif(abalone\_mdl\_ntbic)#model 2#model 3

让咱们从置信区间开始。咱们所有候选模型的置信区间都在类似的范畴内。即均匀而言,在任何一点,所有模型的区间范畴仿佛都雷同。请留神,3 个候选模型中有 2 个应用了所有预测变量,因而具备十分高的共线性。因为咱们的模型很好地拟合了数据,因而均匀缩小了任何点的方差范畴。这很好。

此外,与置信区间相似,模型之间的预测区间也在雷同的范畴内。模型拟合再次对这个较窄的区间范畴产生影响。请留神,预测区间比咱们预期的置信区间宽得多。因为所有模型的预测区间即便在高度共线性之后也处于类似的范畴内,咱们会说这些是好的。咱们应用默认的 95% 公式来计算所有候选模型的置信区间和预测区间。

基于咱们对所有这些候选模型的剖析,咱们认为候选模型 3  abalone\_int\_infant 将是预测鲍鱼年龄的最佳抉择。与其余两个候选模型相比,该模型更小,复杂度更低,但 rmse 最低。此外,模型之间的预测和置信区间十分类似。因为这些起因,咱们将抉择模型 abalone\_int\_infant 作为咱们剖析的最佳模型。
 

预测鲍鱼的年龄

  • 当初让咱们应用咱们抉择的模型预测鲍鱼的年龄。咱们将从测试数据中随机抉择 5 个察看值并尝试预测年龄。请留神,该模型实际上预测了鲍鱼中的环数。咱们须要在环数中加上 1.5 能力确定鲍鱼的实在年龄。所以实质上,咱们将比拟模型预测的环数与测试数据集中的理论环数。
  ``````#从测试数据中随机抽取5个察看值sample <- sample\_n(test\_data, 5)exp(predict( ta=sample )

咱们能够从下面的例子中看到,咱们从测试和模型中计算了环数和年龄,用于多数察看。咱们看到咱们的模型正确预测了鲍鱼的年龄,或者十分靠近鲍鱼的理论年龄。这些是模型以前从未见过的测试数据中的 5 个样本察看值。咱们能够多取一些并执行雷同的过程,看看咱们的模型对鲍鱼年龄的预测成果如何。

在这份剖析报告中,咱们利用了各种多元回归技术和办法,但这并不意味着这个问题不能应用其余更先进的技术来解决。咱们尝试利用一些超出本报告范畴的先进办法,只是为了评估这些技术是否能够进一步改良咱们的预测。
 

应用先进技术

  • 在本节中,咱们超过了传统的常见回归技术,并尝试利用一些先进的技术,看看咱们是否能够创立一个具备较低测试 RMSE 的模型。

 

Elastic Net 弹性网络是一种正则化回归办法,它线性组合了 lasso 和 ridge 办法的 L1 和 L2 惩办。

  • 咱们将尝试应用弹性网络来进一步优化咱们的预测。
  • 与 lasso 和 ridge 一样,截距不会受到惩办,并且 glment 在外部负责标准化。
  • 咱们将应用与候选模型 3 (abalone\_int\_infant) 中雷同的预测变量。
 train(  Rings ~ke\_ight, 4) + pol(Shell\_weigh, 4) + Infant + Diameter:poly(Shucked\_weight, 4)  poly(Shuckedwight, 4:Infant,daa=abalone\_trai  method = "glmnet",  trControl = cv_10,

kable(result, digit

  • 咱们看到训练和测试 rmse 后果都低于咱们的候选模型。

 

随机森林回归

随机森林或随机决策森林是一种用于分类、回归和工作的集成学习办法,它通过在训练时构建大量决策树并输入类别(在分类的状况下)或均匀预测来进行操作(在回归的状况下)单个树。随机决策森林纠正了 Doe 决策树适度拟合训练数据集的习惯。

咱们在这里实现了随机森林回归模型进行预测,看看咱们是否能够进一步改良。 随机森林回归模型的 RMSE 后果比候选模型的 RMSE Score 更好。
 

 bm(Rig ~, daa  aloeran stbton = "gausian", ntre =, inrtindeth  3, shrinkage = 0.01)

以下是随机森林办法的一些优缺点

它不对数据分布做出任何假如。

主动拟合高度非线性的交互。

通过靠近度很好地解决缺失值。

即便对于大型数据集也能疾速拟合。

曾经察看到随机森林对某些具备嘈杂分类/回归工作的数据集适度拟合。

如果树不小就不容易解释

后果

本报告系统地解决了预测鲍鱼年龄的工作。摸索了第一个数据集,发现了不寻常的察看后果,并对变量进行了适当的标准化。

咱们从一个加法模型开始,该模型蕴含所有名为abalone_add的预测变量 。咱们持续查看各种假如和测试,以进一步提高模型的准确性并升高 rmse。

而后,咱们对因变量和预测变量进行了屡次转换。当咱们执行各种变量抉择程序时,咱们看到了 rmse 的改良。

通过咱们的剖析,咱们找到了几个不错的候选模型,咱们抉择了模型 abalone\_int\_infant 作为咱们的最佳模型。

以下是一些重要的关键点,阐明了咱们对这一论断的抉择。

利用上述技术后,咱们得出了 3 个可能的候选模型。

候选模型 1 是 abalone\_model\_int_bic  ,这是对交互模型的各种抉择过程的后果。咱们看到这个模型 AIC 得分最低,rmse 排名第二。模型蕴含一些高共线预测变量,但当查看 rmse、预测和置信区间时,这是一个适合的抉择。

候选模型 2 是 abalone\_int\_full。回忆一下,详尽的搜寻过程表明,当咱们所有的预测变量,咱们失去最好的模型。所以咱们决定增加模型中交互项和多项式次数为 4 的所有预测变量。该模型具备最高的多重共线性,但从 rmse 和预测以及置信区间来看是十分正当的。

候选模型 3 是 abalone\_int\_infant。正如咱们最后的数据分析表明分类变量 Sex 有 3 个因子程度。 female, male 和 infant。程度 female 和 male 咱们在散布方面极其类似,因而咱们将这两个程度合二为一,使预测变量的总程度为 Sex 两个。因为这种级别的升高,与前两个模型相比,该模型可能是最简略的模型。咱们对此进行了彻底的剖析,最终模型具备类似的 rmse、预测和置信区间。这就是咱们抉择该模型作为候选模型之一的起因。

在以上 3 个候选模型中,候选模型 3  abalone\_int\_infant 略微好一点,同时也不太简单,因而它是咱们进行此剖析的首选模型。这有很多起因。让咱们讨论一下。

以下是为此剖析抉择的模型的公式

 lm(log(Rings) ~  Height + Diameter + poly(Whole_weight, 4) +  poly(Viscera\_weight, 4) + poly(Shucked\_weight,4) + poly(Shell\_weight, 4) + Infant + Diameter:poly(Shucked\_weight, 4) + poly(Shucked_weight,  4):Infant
  • 这是所有 3 个候选模型的测试/训练 RMSE 的疾速比拟。

  • 下图显示了整个剖析报告中所选模型的 rmse(以红色标记)、候选模型和模型的其余部分以及它们的测试 rmse 比拟。咱们能够分明地看到,咱们抉择的模型 abalone\_int\_infant 也在int infant 上面的图中重命名 ,其测试 rmse 最低。

 

  • 这里一个明确的模式是,当模型更小、更简略时,测试 rmse 很高,但随着咱们改良模型并开始变得更加灵便(因而模型长度更大),测试 rmse 降落。
  • 以下是所选模型的正态性假如。咱们能够分明地看到,当咱们用对数变换和交互项拟合模型时,常数变动和正态性假如变得越来越好。

这里要留神的一个关键点是,多重共线性的存在并没有真正影响预测(这是咱们剖析的指标),咱们可能将其影响升高到肯定水平。咱们通过拟合与残差图验证了这一点,能够看出咱们抉择的模型具备以残差为核心的残差, 0 并且大抵是恒定的变动。

如果咱们应用平行坐标图绘制异样观测值,咱们能够看到 Height 这些观测值与鲍鱼的均匀高度相比更短。Whole\_weight 和 Viscera\_weight which as lower也是如此 。此外 weight.diff ,其中一些察看后果是否定的,这是咱们在初始数据分析期间发现的。

上面的平行坐标图描述了这些异样察看的特色,其中婴儿 = 1(橙色线)和非婴儿 [男/女] = 2(蓝线)。

 当初,如果咱们只是从咱们的训练数据中抽取一个样本并应用平行坐标绘图,咱们能够看到个别状况下 Height, Whole_weight 并且 Viscera_weight 均匀分布。

  • 咱们还看到从数据集中删除异常察看进一步升高了测试 rmse,然而咱们没有从咱们的数据集中删除那些,因为它们仿佛是无效的假如而不是极其状况。
  • 咱们能够看到的均方根误差得分 Elastic Net 和 Random Forest 比咱们的候选模型较低,但差异不是很显著。

 

探讨

让咱们从咱们正在剖析的数据集开始探讨。从最后的汇总统计数据中,咱们看到数据中存在十分高的共线性。简直所有的变量都有很高的 vif 值。

咱们所做的另一个重要察看是数据品质。咱们发现在某些状况下没有正确记录察看后果。例如,对于 2 个察看,高度为 0,这实际上是不可能的。然而当咱们查看整个察看后果和其余变量时,咱们没有发现任何异样模式。咱们意识到这可能是数据输出谬误,因而咱们决定将它们保留在咱们的数据集中进行剖析。以下是这 2 个察看后果。
 

咱们还看到,有些察看后果不合乎逻辑。预测器 Whole\_weight 被认为是预测的线性函数 Shucked\_weight,  Viscera\_weight, Shell\_weight 并在去壳过程中损失的血液/水的加成未知品质。换句话说,所有其余权重预测变量的总和应该等于或小于 Whole_weight。然而咱们发现 153 这样的察看违反了这个假如。仔细观察后,咱们发现察看后果之间没有相似之处或任何模式,因而咱们得出结论,这可能只是数据记录谬误,因而这些察看后果并未从数据集中删除。以下是这些 153 察看后果。

咱们在探索性剖析中发现的下一个乏味趋势是预测Sex 因子程度的散布 。因子程度female 和 male 所有其余预测因子 都十分类似。此外,整体数据也大抵平均地散布在female、 male 和 的 程度值之间 infant。以下是程度之间的散布及其绝对于其余预测变量和响应变量的总体散布。

  • 在下面的箱线图中,咱们能够看到female 和 的散布形态 male 对于所有预测变量都十分类似。
  • 当初让咱们来看看它的频率。

同样,它十分类似。这些后果为咱们指明了另一个方向,通过将female 和 组合male 成一个级别名称作为 ,咱们在数据集中创立了一个新变量 non-infant。所以当初新的分类变量有两个级别 infant 和 non-infant。在咱们的一个候选模型中,咱们应用这个新的分类而不是原始的来查看其成果。最初,这是咱们抉择的模型。

初始数据分析期间的下一个重要发现是预测变量之间存在十分高的多重共线性。这是有情理的,因为咱们之前发现 Whole_weight 预测在某种程度上依赖于其余分量预测。 Length 鲍鱼的 Diameter. 以下是 来自加法模型的模型系数的 变异收缩因子值。
 

##           SexI           SexM         Length       Diameter         Height ##       1.982824       1.400405      42.874862      44.907429       3.114493 ##   Whole\_weight Shucked\_weight Viscera\_weight   Shell\_weight ##     118.819537      29.579686      18.591058      22.182789

初始模型违反了恒定变异和正态性假如。应用各种方差稳固技术和转换,咱们可能提出一个很好的模型。这些选定的候选模型应用了交互项、预测变量的多项式变换和响应变量的对数变换。

乏味的是,即便存在高度多重共线性,在模型抉择过程中,咱们最终还是抉择了具备所有 8 个参数的模型。即所有的抉择程序都表明当应用模型中的所有预测变量时,最低的 AIC 呈现。只管在咱们应用各种响应和预测变量转换进行模型抉择之后,咱们可能在放弃类似的测试 rmse 的同时略微减小模型的大小。

咱们看到咱们简直没有对升高测试 rmse 有轻微影响的异样察看,但因为这些察看不代表显着变动或挪动模型系数,咱们没有将它们从数据集中删除。

在数据的背景下议论这个剖析,咱们能够从模型中看到, Length 变量可能不会成为预测鲍鱼年龄的重要因素。咱们能够看到咱们没有在咱们的模型中抉择这个。这种状况是有意义的,因为 Length 或多或少地相干 Diameter (即长度越大直径越大),并且因为咱们曾经将直径带入咱们的模型,所以咱们不须要鲍鱼数据集中的长度。

预测时另一个十分乏味的事实是,不能独自应用整个体重来预测年龄。咱们晓得,鲍鱼的去壳过程会使鲍鱼的血液和水分变干,而后再称重,不同阶段(去皮、去壳、干燥)的分量组合也是决定鲍鱼年龄的重要因素。

咱们从测试数据中抽取了 10 个样本察看值,并应用咱们抉择的模型 (abalone\_int\_infant) 预测了年龄,均匀而言,它正确预测了 10 次中的第 3 次。从所选模型 (2.2021) 的测试 rmse 值思考出响应变量环的范畴(1 到 29),咱们认为咱们的模型非常适合预测鲍鱼的年龄。


 

最受欢迎的见解

1.R语言多元Logistic逻辑回归 利用案例

2.面板平滑转移回归(PSTR)剖析案例实现剖析案例实现")

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型剖析案例

5.R语言混合效应逻辑回归Logistic模型剖析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测