关于数据挖掘:极值理论EVT与R语言应用GPD模型火灾损失分布分析

正态分布属于统计学里的常识，对于咱们科研来说在数据处理时常罕用到所以须要学习相干的常识。

正态分布在自然界中是一种最常见的散布。例如，测量的误差、射击的偏差、人体的身高、农作物的亩产量、学生考试成绩等都近似遵从正态分布，因而，正态分布在科研实践钻研中是十分重要的。

但对于您可能有趣味钻研大型事件的影响以进一步理解和将来预期的其余各种状况，正态分布将不起作用！很多数据都适宜这种形容，例如须要钻研大额财务损失的影响并取得其产生概率的财务数据。

因为此类事件很少见，正态分布会疏忽它，因为它不会产生，而 极值实践 (EVT)仿佛通过突出数据的 极值局部 并对其进行独自建模以答复相干感兴趣问题。

因为统计中的任何表达式都有 “实践” 一词，因而给人的印象是黑匣子充斥了简单 / 未涉及的内容，这与 EVT 相干的名誉雷同。在本文中，咱们将预览 EVT 的各种应用程序的简化介绍，最初您将大抵理解 EVT，为什么以及何时须要应用它？！.

这篇文章将如下

对于 EVT 的简略介绍。
列出实现 EVT 的不同应用程序。

顾名思义，极值实践提供了一类办法来预测极其事件的行为形式。它用于构造工程、地球科学和城市规划；随着新钻研的不断涌现，它已被证实是极值剖析中的重要资源。

简而言之，EVT 能够概括为对危险价值（也称为方差 - 协方差法）忽略的解决方案。

_“In cauda venenum”是您在极值实践一_书中看到的第一句话：Laurens de Haan 和 Anna Ferreira 的介绍，这是对于您在利用 EVT 时将要解决的数据的性质的十分富裕表现力的句子. 极其数据通常具备更重要的尾部信息，反映实在行为。

“重尾”和高斯分布模型有什么区别？

“重尾”散布是那些尾部不是指数边界的散布。与具备“正态分布”的钟形曲线不同，重尾散布以较慢的速度靠近零，并且可能具备十分高的异样值。

就危险而言，重尾散布更有可能产生较大的、不可预感的事件。从图形上看，与教训数据相比，重尾模型（深蓝色）捕捉到了模型投资组合中形容的更多危险。高斯模型或钟形曲线，正态分布为浅蓝色。

峰度是从简略统计中检测极其数据最合适的度量，其中 顶峰度示意重尾散布，而低峰度示意相当轻的尾散布。依然峰度不足以取得对于尾部分量、端点预计（如果可能的话）等的精确信息。

基于 EVT，对于要作为极其数据思考和剖析的数据，数据必须具备其样本最大值的极限散布。从统计上讲

Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建设的 EVT 实践和根底。它们指定了样本最大值的一组非进化极限散布，称为“极值散布类别”，

很显著，这类散布取决于一个称为 极值指数 (EVI)的主要参数，这是理解极限散布性质的要害参数。EVI 将极值散布的个别类分为三个子类：

正 EVI示意具备_有限端点_的散布，这意味着您正在解决 重尾散布。
零 EVI示意散布_端点等于无穷大_，即Light Tailed Distribution。
负 EVI是指_端点为负的 EVI 可逆_散布，示意 短尾散布。

通常极其剖析从绝对较大的数据开始，而后放大规模以仅剖析极其察看。抉择这些观测值的次要办法有两种，即：超阈值峰值办法 (POT) 和分块极大值办法。

请留神，它与极值定理不同，极值定理说对于间断闭合函数必须存在最小值和最大值。

基本上，极值实践中应用了两种办法：

AMS(annual maxima series)：也称为块最大值模型，在这种模型中，数据集被分成等长的汇合，每个汇合的最大值被认为来自一个散布。最大值的散布不同于根底散布。这些散布是狭义极值散布的一部分。这些散布 Gumbel 散布（指数尾）、Fréchet 散布（重尾）或 Weibull 散布（轻尾）。
POT（Peak Over Threshold）：第二种办法依赖于从间断记录中 提取值超过某个阈值（低于某个阈值）的任何期间达到的峰值。这种办法通常被称为“Peak Over Threshold”办法 (POT)。应用这种办法的散布拟合是帕累托，对随机变量进行适当的重整化后的泛化模式称为狭义帕累托散布。

块最大值法 _将数据分成若干块，失去每个块的最大值_。它须要十分大的数据集能力具备足够数量的块。而POT 办法 是更古代的极其事件建模办法，它通过_指定某个_高阈值_并在剖析中思考高于该点的所有察看后果来工作_. 在 POT 办法中，找到阈值总是至关重要的，并且有很多办法能够找到它，例如希尔图。

数据被分成区间，区间的大小由统计学家决定。取每个距离（或“块”，因而得名）的最极其值。最极其的值将是块中的最小值或最大值，具体取决于统计学家的指标。应用 Block Maxima 办法时，没有确定块大小的标准化办法。

阈值由统计学家决定，高于（或低于）该阈值的所有值都被视为极其值。这些是抉择要建模的值。

这些办法在许多方面都被证实是有用的，只管它们也有本人的挫折。应用 Block Maxima 办法时，没有确定块大小的标准化办法 ，相似于 应用 POT 办法时没有规范阈值。这意味着统计学家将不得不用他们最好的判断来本人决定“失常”和“极其”之间的界线在哪里；值太低会导致较大的方差；过多的订单统计数据可能会导致较大的偏差。

极值剖析面临的次要挑战之一是不足可用的数据。仅对一小部分数据进行建模可能会遇到挫折；它可能导致适度概括，或者模型是仅在特定状况下运行良好的模型。鉴于 EVT 只关注最极其的值，咱们须要只实用于常见和极其状况的模型。此外，鉴于咱们正在尝试计算极其数据，咱们在某种程度上试图尽可能地适度概括，同时依然对数据提供精确的洞察力。

从介绍中，您可能对应用极其剖析的案例有所理解。简而言之，当您有趣味查看数据中甚至可能从未产生过的极其 / 不规则事件时，简略的峰度工具可能会给出提醒。在这里，我将为您提供几个理论利用及其论断以及如何将 EVT 纳入剖析。

一、人类寿命的极限

该应用程序思考了 1986 年至 2015 年间死亡的荷兰居民的死亡年龄数据。依据这些数据，他们想确定人类寿命的极限？！. 应用 POT 办法，通过最大似然估计量预计 EVI 对于女性和男性都是正数，这强烈表明存在年龄散布的无限端点。而后通过女性 124 岁和男性 125 岁来预计起点。无关剖析和数据的详细信息，您能够查看通过极值实践限度人类寿命的论文。

二、终极静止记录

收集无关跑步、投掷和跳跃的静止记录的数据来答复这个问题，每项特定静止的最终记录是什么？！. 他们首先通过矩估计量来预计 EVI，该估计量对于大多数事件都变为正数，这表明端点无限。而后依据预计的 EVI 预计端点。更多细节能够在通过极值实践在田径运动中的记录中找到。

三、堤坝高度

这被认为是 EVT 最驰名的利用之一。在荷兰，家喻户晓，该国近 40% 的地区都在海平面以下。确保该国免受 1953 年产生的任何可能的洪水的影响是十分重要的。而后须要 EVT 来答复一个重要的问题，即在一年内应该给予堤坝十分小的洪水概率？！通过收集 100 年的风暴数据，他们通过预计堤坝高度的极其分位数来答复这个问题，因为洪水的概率是 0.0001。

四、摩天大楼

另一个乏味的利用是 对摩天大楼的数据建模并查看其高度和楼层数的限度。寰球摩天大楼的数据来自高层建筑和城市人居委员会 (CTBUH)。对摩天大楼的数量散布拟合了对数线性模型。进行 EVT 剖析以预测极其高度和楼层数。用极值实践预测城市天际线论文有具体的剖析和后果。

五、风险管理

在这里我不会列举一个具体的应用程序，因为有几个与保险和银行畛域的风险管理相干的应用程序应用 EVT。一个要害工具是危险价值 (VAR) 和冀望损失，它们都用于依据极其状况评估偿付能力。这些畛域还有更多其余的 EVT 工具和实现，您能够查看 EXTREME VALUE THEORY AS A RISK MANAGEMENT TOOL 进一步探讨和利用。

关于数据挖掘:极值理论EVT与R语言应用GPD模型火灾损失分布分析

全文链接：http://tecdat.cn/?p=21425

概述

介绍

极值实践

分块极大值办法

峰值超过阈值

利用