关于数据挖掘:R语言极值理论希尔HILL统计量尾部指数参数估计可视化

极值实践对样本尾部散布的极值指数的预计办法次要有两类：半参数办法和全参数办法，前者次要是基于散布尾部的 Hill 估计量，后者则次要基于狭义帕累托散布。

尾部指数的希尔 HILL 统计量预计。更具体地说，咱们看到如果，和，而后希尔 HILL 预计为

。而后在某种意义上满足某种一致性 , 如果，即（在收敛速度的附加假如下，）。此外，在附加的技术条件下

为了阐明这一点，请思考以下代码。首先，让咱们思考一个帕累托生存函数，以及相干的分位数函数

> Q=fuction(p){unro(funion(x) S(x)-(1-p),loer=1,per=1e+9)$root}

咱们将思考更简单的生存函数。这是生存函数和分位数函数，

> plot(u,Veie(Q)(u),type="l")

在这里，咱们须要分位数函数从这个散布中生成一个随机样本，

> X=Vectorize(Q)(runif(n))

hill 统计量在这里

> abline(h=alpha)

咱们当初能够生成数千个随机样本，并查看这些预计器（对于某些特定的的）。

> for(s in 1:ns){
+ X=Vectorize
+ H=hill
+ hilk=function(k) 
+ HilK\[s,\]=Vectorize
+ }

如果咱们计算平均值，

> plot(15*(1:10),apply(2,mean)

咱们失去了一系列能够被认为是无偏的估计量。

当初，回忆一下，处于 Fréchet 散布并不意味着，和 , 但意味着

对于一些迟缓变动的函数，不肯定恒定！为了理解可能产生的状况，咱们必须略微具体一些。这只能通过查看生存函数的性质。假如，这里有一些辅助函数

这个（正）常数以某种形式与生存函数与幂函数之比的收敛速度无关。

更具体地说，假如

而后，应用取得二阶正则变动性质，而后，如果趋向于无穷大太快，那么预计就会有偏差。如果，那么，对于一些 ,

这个后果的直观解释是，如果太大，并且如果根底散布不_齐全_ 是帕累托散布，那么希尔估计量是有偏的。这就是咱们所说的意思

（后者来自样本均值的属性：察看越多，均值的波动性越小）。

让咱们运行一些模仿以更好地理解正在产生的事件。应用后面的代码，生成具备生存函数的随机样本实际上是极其简略的

> Q=function(p){uniroot(function(x) S(x)-(1-p)}

如果咱们应用下面的代码。

希尔 hill 变成

> abline(h=alpha)

但它仅基于一个样本。再次思考数千个样本，让咱们看看 Hill 统计量如何，

所以这些估计量的（教训）平均值是

最受欢迎的见解

1.R 语言 POT 超阈值模型和极值实践剖析

2.R 语言极值实践 EVT：基于 GPD 模型的火灾损失散布剖析

3.R 语言有极值（EVT）依赖构造的马尔可夫链 (MC) 对洪水极值剖析对洪水极值剖析 ”)

4.R 语言回归中的 hosmer-lemeshow 拟合优度测验

5.matlab 实现 MCMC 的马尔可夫切换 ARMA – GARCH 模型预计

6.R 语言区间数据回归剖析

7.R 语言 WALD 测验 VS 似然比测验

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI，NRI 指标

原文链接：http://tecdat.cn/?p=26277