关于数据挖掘:Python高维统计建模变量选择SCAD平滑剪切绝对偏差惩罚Lasso惩罚函数比较

42次阅读

共计 1619 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=24940 

变量抉择是高维统计建模的重要组成部分。许多风行的变量抉择办法,例如 LASSO,都存在偏差。带平滑削边相对偏离 (smoothly clipped absolute deviation,_SCAD_) 正则项的回归问题或平滑剪切相对偏差 (SCAD) 预计试图缓解这种偏差问题,同时还保留了稠密性的间断惩办。

惩办最小二乘法

一大类变量抉择模型能够在称为“惩办最小二乘法”的模型族下进行形容。这些指标函数的个别模式是

其中  是设计矩阵, 是因变量的向量, 是系数的向量, 是由正则化参数索引的惩办函数 .

作为非凡状况,请留神 LASSO 对应的惩办函数为 ,而岭回归对应于 . 回忆上面这些单变量惩办的图形形态。

SCAD

Fan 和 Li(2001)提出的平滑剪切相对偏差(SCAD)惩办,旨在激励最小二乘法问题的稠密解,同时也容许大值的 β
. SCAD 惩办是一个更大的系列,被称为 “ 折叠凸起惩办 ”,它在以下方面是凹的,R+ 和 R-
. 从图形上看,SCAD 惩办如下所示:

有点奇怪的是,SCAD 惩办通常次要由它的一阶导数定义 ,而不是 . 它的导数是

其中 a 是一个可调参数,用于管制 β 值的惩办降落的速度,以及函数  等于  如果 , 否则为 0。

咱们能够通过合成惩办函数在不同数值下的导数来取得一些洞察力 λ:

对于较大的 β 值(其中 ),惩办对于 β 是恒定的。换句话说,在 β 变得足够大之后,β 的较高值 不会受到更多的惩办。这与 LASSO 惩办造成比照,后者具备对于 |β| 的枯燥递增惩办:

然而,这意味着对于大系数值,他们的 LASSO 预计将向下偏置。

另一方面,对于较小的 β 值(其中 |β|≤λ),SCAD 惩办在 β 中是线性的。对于 β 的中等值(其中 ),惩办是二次的。

分段定义,pλ(β) 是

在 Python 中,SCAD 惩办及其导数能够定义如下:

def scad:
    s_lar 
    iudic =np.lgicand
    iscsat = (vl * laval) < np.abs
    
    lie\_prt = md\_val * pab* iliear

    return liprt + urtirt + cosaat

应用 SCAD 拟合模型

拟合惩办最小二乘模型(包含 SCAD 惩办模型)的一种通用办法是应用部分二次近似。这种办法相当于在初始点 β0 四周拟合二次函数 q(β),使得近似:

  • 对于 0 对称,
  • 满足 q(β0)=pλ(|β0|),
  • 满足 q ′ (β0) = p′λ (| β0 |)。

因而,迫近函数必须具备以下模式

对于不依赖于 β 的系数 a 和 b。下面的束缚为咱们提供了一个能够求解的两个方程组:

为了残缺起见,让咱们来看看解决方案。重新排列第二个方程,咱们有

将其代入第一个方程,咱们有

因而,残缺的二次方程是

当初,对于系数值的任何初始猜想 β0,咱们能够应用下面的 q 结构惩办的二次预计。而后,与初始 SCAD 惩办相比,找到此二次方的最小值要容易得多。

从图形上看,二次近似如下所示:

将 SCAD 惩办的二次迫近代入残缺的最小二乘指标函数,优化问题变为:

疏忽不依赖于 β 的项,这个最小化问题等价于

奇妙地,咱们能够留神到这是一个岭回归问题,其中 

回忆一下,岭回归 是

这意味着近似的 SCAD 解是


最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归 (PCR) 和主成分回归(PCR)”)

2.R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3. 主成分剖析 (PCA) 基本原理及剖析实例基本原理及剖析实例 ”)

4. 基于 R 语言实现 LASSO 回归剖析

5. 应用 LASSO 回归预测股票收益数据分析

6.r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7.r 语言中的偏最小二乘回归 pls-da 数据分析

8.r 语言中的偏最小二乘 pls 回归算法

9. R 语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

正文完
 0