关于数据挖掘:视频R语言极值理论EVT基于GPD模型的火灾损失分布分析数据分享附代码数据

5次阅读

共计 6098 个字符,预计需要花费 16 分钟才能阅读完成。

全文下载链接:http://tecdat.cn/?p=21425

最近咱们被客户要求撰写对于极值实践 EVT 的钻研报告,包含一些图形和统计输入。
“In cauda venenum”是您在极值实践一书中看到的第一句话:Laurens de Haan 和 Anna Ferreira 的介绍,这是对于您在利用 EVT 时将要解决的数据的性质的十分富裕表现力的句子,极其数据通常具备更重要的尾部信息,反映实在行为

本文利用 GPD 模型对火灾经济损失数据进行了统计建模; 并对形态参数及尺度参数进行了预计。

正态分布属于统计学里的常识,对于咱们科研来说在数据处理时常罕用到所以须要学习相干的常识。

正态分布在自然界中是一种最常见的散布。例如,测量的误差、射击的偏差、人体的身高、农作物的亩产量、学生考试成绩等都近似遵从正态分布,因而,正态分布在科研实践钻研中是十分重要的。

但对于您可能有趣味钻研大型事件的影响以进一步理解和将来预期的其余各种状况,正态分布将不起作用!很多数据都适宜这种形容,例如须要钻研大额财务损失的影响并取得其产生概率的财务数据。

因为此类事件很少见,正态分布会疏忽它,因为它不会产生,而 极值实践 (EVT) 仿佛通过突出数据的 极值局部 并对其进行独自建模以答复相干感兴趣问题。


点击题目查阅往期内容

POT 超阈值模型和极值实践 EVT 剖析

左右滑动查看更多

01

02

03

04

因为统计中的任何表达式都有 “实践” 一词,因而给人的印象是黑匣子充斥了简单 / 未涉及的内容。

在本文中,咱们将预览 EVT 的各种应用程序的简化介绍,最初您将大抵理解 EVT,为什么以及何时须要应用它?

概述

这篇文章将如下

  • 对于 EVT 的简略介绍。
  • 列出实现 EVT 的不同应用程序。

顾名思义,极值实践提供了一类办法来预测极其事件的行为形式。它用于构造工程、地球科学和城市规划;随着新钻研的不断涌现,它已被证实是极值剖析中的重要资源。

简而言之,EVT 能够概括为对危险价值(也称为方差 - 协方差法)忽略的解决方案。

介绍

“重尾”和高斯分布模型有什么区别?

“重尾”散布是那些尾部不是指数边界的散布。与具备“正态分布”的钟形曲线不同,重尾散布以较慢的速度靠近零,并且可能具备十分高的异样值

就危险而言,重尾散布更有可能产生较大的、不可预感的事件。从图形上看,与教训数据相比,重尾模型(深蓝色)捕捉到了模型投资组合中形容的更多危险。高斯模型或钟形曲线,正态分布为浅蓝色。

峰度 是从简略统计中检测极其数据最合适的度量,其中 顶峰度示意重尾散布,而低峰度示意相当轻的尾散布。依然峰度不足以取得对于尾部、端点预计等的精确信息。

基于 EVT,对于要作为极其数据思考和剖析的数据,数据必须具备其样本最大值的极限散布。从统计上讲

Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建设的 EVT 实践和根底。它们指定了样本最大值的一组非进化极限散布,称为“极值散布类别”,

很显著,这类散布取决于一个称为 极值指数 (EVI) 的主要参数,这是理解极限散布性质的要害参数。EVI 将极值散布的个别类分为三个子类:

  • 正 EVI示意具备_有限端点_的散布,这意味着您正在解决 重尾散布
  • 零 EVI示意散布_端点等于无穷大_,即Light Tailed Distribution
  • 负 EVI是指_端点为负的 EVI 可逆_散布,示意 短尾散布。

极值实践 

通常极其剖析从绝对较大的数据开始,而后放大规模以仅剖析极其察看。抉择这些观测值的次要办法有两种,即:超阈值峰值办法 (POT) 和分块极大值办法。

请留神,它与极值定理不同,极值定理说对于间断闭合函数必须存在最小值和最大值。

基本上,极值实践中应用了两种办法:

  1. AMS(annual maxima series):也称为块最大值模型,在这种模型中,数据集被分成等长的汇合,每个汇合的最大值被认为来自一个散布。最大值的散布不同于根底散布。这些散布是狭义极值散布的一部分。这些散布 Gumbel 散布(指数尾)、Fréchet 散布(重尾)或 Weibull 散布(轻尾)。
  2. POT(Peak Over Threshold):第二种办法依赖于从间断记录中 提取值超过某个阈值(低于某个阈值)的任何期间达到的峰值。这种办法通常被称为“Peak Over Threshold”办法 (POT)。应用这种办法的散布拟合是帕累托,对随机变量进行适当的重整化后的泛化模式称为狭义帕累托散布。

块最大值法  _将数据分成若干块,失去每个块的最大值_。它须要十分大的数据集能力具备足够数量的块。而POT 办法 是更古代的极其事件建模办法,它通过_指定某个_高阈值_并在剖析中思考高于该点的所有察看后果来工作_. 在 POT 办法中,找到阈值总是至关重要的,并且有很多办法能够找到它,例如希尔图。

 分块极大值办法 

数据被分成区间,区间的大小由统计学家决定。取每个距离(或“块”,因而得名)的最极其值。最极其的值将是块中的最小值或最大值,具体取决于统计学家的指标。应用 Block Maxima 办法时,没有确定块大小的标准化办法

峰值超过阈值 

阈值由统计学家决定,高于(或低于)该阈值的所有值都被视为极其值。这些是抉择要建模的值。

这些办法在许多方面都被证实是有用的,只管它们也有本人的挫折。应用 Block Maxima 办法时,没有确定块大小的标准化办法 ,相似于 应用 POT 办法时没有规范阈值。这意味着统计学家将不得不用他们最好的判断来本人决定“失常”和“极其”之间的界线在哪里;值太低会导致较大的方差;过多的订单统计数据可能会导致较大的偏差。

极值剖析面临的次要挑战之一是不足可用的数据。仅对一小部分数据进行建模可能会遇到挫折;它可能导致适度概括,或者模型是仅在特定状况下运行良好的模型。鉴于 EVT 只关注最极其的值,咱们须要只实用于常见和极其状况的模型。此外,鉴于咱们正在尝试计算极其数据,咱们在某种程度上试图尽可能地适度概括,同时依然对数据提供精确的洞察力。

利用

从介绍中,您可能对应用极其剖析的案例有所理解。简而言之,当您有趣味查看数据中甚至可能从未产生过的极其 / 不规则事件时,简略的峰度工具可能会给出提醒。在这里,我将为您提供几个理论利用及其论断以及如何将 EVT 纳入剖析。

一、人类寿命的极限

该应用程序思考了 1986 年至 2015 年间死亡的荷兰居民的死亡年龄数据。依据这些数据 ,他们想确定人类寿命的极限。 应用 POT 办法,通过最大似然估计量预计 EVI 对于女性和男性都是正数,这强烈表明存在年龄散布的无限端点。而后通过女性 124 岁和男性 125 岁来预计起点。无关剖析和数据的详细信息,您能够查看通过极值实践限度人类寿命的论文。

二、终极静止记录

收集无关跑步、投掷和跳跃的静止记录的数据来答复这个问题,每项特定静止的最终记录是什么? 他们首先通过矩估计量来预计 EVI,该估计量对于大多数事件都变为正数,这表明端点无限。而后依据预计的 EVI 预计端点。更多细节能够在通过极值实践在田径运动中的记录中找到。

三、 堤坝 高度

这被认为是 EVT 最驰名的利用之一。在荷兰,家喻户晓,该国近 40% 的地区都在海平面以下。确保该国免受 1953 年产生的任何可能的洪水的影响是十分重要的。而后须要 EVT 来答复一个重要的问题,即在一年内应该给予堤坝十分小的洪水概率? 通过收集 100 年的风暴数据,他们通过预计堤坝高度的极其分位数来答复这个问题,因为洪水的概率是 0.0001。

**
**

四、摩天大楼

另一个乏味的利用是 对摩天大楼的数据建模并查看其高度和楼层数的限度。寰球摩天大楼的数据来自高层建筑和城市人居委员会 (CTBUH)。对摩天大楼的数量散布拟合了对数线性模型。进行 EVT 剖析以预测极其高度和楼层数。用极值实践预测城市天际线论文有具体的剖析和后果。

五、风险管理

在这里我不会列举一个具体的应用程序,因为有几个与保险和银行畛域的风险管理相干的应用程序应用 EVT。一个要害工具是危险价值 (VAR) 和冀望损失,它们都用于依据极其状况评估偿付能力。这些畛域还有更多其余的 EVT 工具和实现,您能够查看 EXTREME VALUE THEORY AS A RISK MANAGEMENT TOOL 进一步探讨和利用。

R 语言极值实践 EVT:基于 GPD 模型的火灾损失散布剖析 

极值实践关注危险损失散布的尾部特色, 通常用来剖析概率常见的事件, 它能够依附大量样本数据, 在总体散布未知的状况下, 失去总体散布中极值的变动状况, 具备超过样本数据的预计能力。因而, 基于 GPD(generalized pareto distribution)散布的模型可更无效地利用无限的巨灾损失数据信息, 从而成为极值实践以后的支流技术。

针对巨灾产生频率低、损失高、数据有余且具备厚尾性等特点, 利用 GPD 模型对火灾经济损失数据进行了统计建模; 并对形态参数及尺度参数进行了预计。模型测验表明,GPD 模型对巨灾危险厚尾特点具备较好的拟合成果和拟合精度, 为巨灾危险预计的建模及巨灾债券的定价提供了理论依据。

火灾损失数据

本文应用的数据 查看文末理解数据获取形式 是在再保险公司收集的,包含 1980 年至 1990 年期间的 2167 起火灾损失。已对通货膨胀进行了调整。总索赔额已分为建筑物损失、利润损失。

base1=read.table( "dataunivar.txt",
 header=TRUE)
base2=read.table( "datamultiva.txt",
 header=TRUE)

思考第一个数据集(到目前为止,咱们解决的是单变量极值),

 > D=as.Date(as.character(base1$Date),"%m/%d/%Y")
> plot(D,X,type="h")

图表如下:

而后一个天然的想法是可视化

例如

> plot(log(Xs),log((n:1)/(n+1)))

线性回归

这里的点在一条直线上。斜率能够通过线性回归失去,

 lm(formula = Y ~ X, data = B)
lm(Y~X,data=B[(n-500):n,])
lm(formula = Y ~ X, data = B[(n - 100):n, ])

重尾散布

这里的斜率与散布的尾部指数无关。思考一些重尾散布

因为天然估计量是阶次统计量,因而直线的斜率与尾部指数相同 . 斜率的估计值为(仅思考最大的观测值)

希尔估算量

希尔估算量基于以下假如:下面的分母简直为 1(即等于)。

那么能够失去收敛性假如。进一步

基于这个(渐近)散布,能够失去一个(渐近)置信区间 

> xi=1/(1:n)*cumsum(logXs)-logXs
> xise=1.96/sqrt(1:n)*xi

> polygon(c(1:n,n:1),c(xi+xise,rev(xi-xise)),

增量办法

与之相似(同样还有对于收敛速度的附加假如)

(应用增量办法取得)。同样,咱们能够应用该后果得出(渐近)置信区间

 > alphase=1.96/sqrt(1:n)/xi
> polygon(c(1:n,n:1),c(alpha+alphase,rev(alpha-alphase)),

Deckers-einmal-de-Haan 估计量

而后(再次思考收敛速度的条件,即),

Pickands 预计

 因为 ,

代码

> xi=1/log(2)*log((Xs[seq(1,length=trunc(n/4),by=1)]-
+ Xs[seq(2,length=trunc(n/4),by=2)])/

> xise=1.96/sqrt(seq(1,length=trunc(n/4),by=1))*
+sqrt(xi^2*(2^(xi+1)+1)/((2*(2^xi-1)*log(2))^2))

> polygon(c(seq(1,length=trunc(n/4),by=1),rev(seq(1,

拟合 GPD 散布

也能够应用最大似然办法来拟合高阈值上的 GPD 散布。

 > gpd
$n
[1] 2167

$threshold
[1] 5

$p.less.thresh
[1] 0.8827873

$n.exceed
[1] 254

$method
[1] "ml"

$par.ests
xi      beta
0.6320499 3.8074817

$par.ses
xi      beta
0.1117143 0.4637270

$varcov
[,1]        [,2]
[1,]  0.01248007 -0.03203283
[2,] -0.03203283  0.21504269

$information
[1] "observed"

$converged
[1] 0

$nllh.final
[1] 754.1115

attr(,"class")
[1] "gpd"

或等效地

> gpd.fit
$threshold
[1] 5

$nexc
[1] 254

$conv
[1] 0

$nllh
[1] 754.1115

$mle
[1] 3.8078632 0.6315749

$rate
[1] 0.1172127

$se
[1] 0.4636270 0.1116136

它能够可视化尾部指数的轮廓似然性,

> gpd.prof

或者

> gpd.prof

因而,能够绘制尾指数的最大似然估计量,作为阈值的函数(包含置信区间),

Vectorize(function(u){gpd(X,u)$par.ests[1]})

plot(u,XI,ylim=c(0,2))
segments(u,XI-1.96*XIS,u,XI+

最初,能够应用块极大值技术。

gev.fit
$conv
[1] 0

$nllh
[1] 3392.418

$mle
[1] 1.4833484 0.5930190 0.9168128

$se
[1] 0.01507776 0.01866719 0.03035380

尾部指数的估计值是在这里最初一个系数。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《 R 语言极值实践 EVT:基于 GPD 模型的火灾损失散布剖析》。

点击题目查阅往期内容

POT 超阈值模型和极值实践 EVT 剖析
[](http://mp.weixin.qq.com/s?__b…)R 语言极值推断:狭义帕累托散布 GPD 应用极大似然预计、轮廓似然预计、Delta 法
R 语言极值实践 EVT:基于 GPD 模型的火灾损失散布剖析
R 语言有极值(EVT)依赖构造的马尔可夫链 (MC) 对洪水极值剖析
R 语言 POT 超阈值模型和极值实践 EVT 剖析
R 语言混合正态分布极大似然预计和 EM 算法
R 语言多项式线性模型:最大似然预计二次曲线
R 语言 Wald 测验 vs 似然比测验
R 语言 GARCH-DCC 模型和 DCC(MVT)建模预计
R 语言非参数办法:应用核回归平滑预计和 K -NN(K 近邻算法)分类预测心脏病数据
matlab 实现 MCMC 的马尔可夫转换 ARMA – GARCH 模型预计
R 语言基于 Bootstrap 的线性回归预测置信区间预计办法
R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归(BVAR)模型
Matlab 马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility)模型
Matlab 马尔可夫区制转换动静回归模型预计 GDP 增长率 R 语言极值推断:狭义帕累托散布 GPD 应用极大似然预计、轮廓似然预计、Delta 法

正文完
 0