乐趣区

关于数据挖掘:R语言极值理论希尔HILL统计量尾部指数参数估计可视化

原文链接:http://tecdat.cn/?p=26277 

极值实践对样本尾部散布的极值指数的预计办法次要有两类:半参数办法和全 参数办法,前者次要是基于散布尾部的 Hill 估计量,后者则次要基于狭义帕累托散布。

尾部指数的希尔 HILL 统计量预计。更具体地说,咱们看到如果 ,和 ,而后希尔 HILL 预计为  


 。而后  在某种意义上满足某种一致性  , 如果 ,即 (在收敛速度的附加假如下,)。此外,在附加的技术条件下

为了阐明这一点,请思考以下代码。首先,让咱们思考一个帕累托生存函数,以及相干的分位数函数

> Q=fuction(p){unro(funion(x) S(x)-(1-p),loer=1,per=1e+9)$root}

咱们将思考更简单的生存函数。这是生存函数和分位数函数,

> plot(u,Veie(Q)(u),type="l")

在这里,咱们须要 分位数函数从这个散布中生成一个随机样本,

> X=Vectorize(Q)(runif(n))

hill 统计量在这里

> abline(h=alpha)

咱们当初能够生成数千个随机样本,并查看这些预计器(对于某些特定的 的)。

> for(s in 1:ns){
+ X=Vectorize
+ H=hill
+ hilk=function(k) 
+ HilK\[s,\]=Vectorize
+ }

如果咱们计算平均值,

> plot(15*(1:10),apply(2,mean)

咱们失去了一系列能够被认为是无偏的估计量。

当初,回忆一下,处于 Fréchet 散布并不意味着 ,和 , 但意味着

对于一些迟缓变动的函数 ,不肯定恒定!为了理解可能产生的状况,咱们必须略微具体一些。这只能通过查看生存函数的性质。假如,这里有一些辅助函数  

这个(正)常数  以某种形式与生存函数与幂函数之比的收敛速度无关。

更具体地说,假如

而后,应用取得二阶正则变动性质 ,而后,如果  趋向于无穷大太快,那么预计就会有偏差。如果 ,那么,对于一些 ,

这个后果的直观解释是,如果  太大,并且如果根底散布不_齐全_ 是帕累托散布,那么希尔估计量是有偏的。这就是咱们所说的意思

  • 如果  太大, 是有偏估计量
  • 如果  太小, 是一个不稳固的估计量

(后者来自样本均值的属性:察看越多,均值的波动性越小)。

让咱们运行一些模仿以更好地理解正在产生的事件。应用后面的代码,生成具备生存函数的随机样本实际上是极其简略的

> Q=function(p){uniroot(function(x) S(x)-(1-p)}

如果咱们应用下面的代码。

希尔 hill 变成

> abline(h=alpha)

但它仅基于一个样本。再次思考数千个样本,让咱们看看 Hill 统计量如何,

所以这些估计量的(教训)平均值是


最受欢迎的见解

1.R 语言 POT 超阈值模型和极值实践剖析

2.R 语言极值实践 EVT:基于 GPD 模型的火灾损失散布剖析

3.R 语言有极值(EVT)依赖构造的马尔可夫链 (MC) 对洪水极值剖析对洪水极值剖析 ”)

4.R 语言回归中的 hosmer-lemeshow 拟合优度测验

5.matlab 实现 MCMC 的马尔可夫切换 ARMA – GARCH 模型预计

6.R 语言区间数据回归剖析

7.R 语言 WALD 测验 VS 似然比测验

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

退出移动版