关于数据挖掘:R语言极值分析分块极大值Blockmaxima阈值超额法广义帕累托分布GPD拟合降水数据时间序列

你们可能晓得，理论极值剖析有两种罕用办法：分块极大值 Block-maxima、阈值超额法 threshold excess。明天，咱们将别离介绍这两种办法。

分块样本极大值的极值实践(_Block_-_maxima_)。这种对（工夫）观测序列的极值建模的办法是基于在肯定的恒定长度序列内利用这些观测值的最大值或最小值。对于足够多的_n 个已建设块，这__n_个等长块的所得峰值可用于将适合的散布拟合到这些数据。尽管块大小基本上能够自由选择，但必须在偏差（小块）和方差（大块）之间进行衡量。通常，序列的长度通常抉择对应于某个相熟的时间段，在大多数状况下为一年。年度最大值（或最小值）的后果向量称为“年度最大值（最小值）系列”或简称为 AMS。

依据 Fisher-Tippett-Gnedenko 定理，块最大值的散布能够通过狭义极值散布来近似。

以下代码显示了一个简短的理论示例，该示例应用 R 中的包将狭义极值散布拟合到降水数据的工夫序列。样本数据集蕴含 1971 年至 2014 年降水数据。

# 加载所需的包


# 获取数据
prexts <- rehyd

# 导出 AMS 以取得最大降水量
ams <- apprly

# GEV 散布的最大似然拟合
evd
# 诊断图
plot

rl_mle <- reevel
# 基于 L- 拟合 GEV 散布矩预计
# 诊断图
plot(fiom) 
# 重现程度：rm <- retvel
# 重现程度图

plot
loc <- as.numeric(retvel)

# 带 LMOM 图的重现程度

loc <- as.numeric(return.level)

在这种状况下，两个后果十分类似。在大多数状况下，L 矩预计比最大似然预计更持重。除了这些经典预计办法之外，extRemes还提供狭义最大似然预计（GMLE，Martins 和 Stedinger，2000 年）和贝叶斯预计办法（Gilleland 和 Katz，2016 年）。

咱们当初来看看阈值超额法。

依据 Coles (2001) 的说法，如果能够应用没有间隙的残缺（工夫）序列，则阈值办法比块最大值办法更无效，因为所有超过某个阈值的值都能够作为模型拟合的根底。在某些状况下，将散布拟合到块最大值数据是一种节约的办法，因为每个块只有一个值用于建模，而阈值过剩办法可能会提供更多对于极其值的信息。

然而，相似于块最大值办法中块大小的抉择，局部持续时间模型的阈值抉择也受到偏差（低阈值）和方差（高阈值）之间的衡量。

Coles (2001) 形容了两种不同的阈值抉择办法。首先，有一种基于均匀_残差_寿命图的探索性办法。该技术在理论模型拟合之前利用。其次，另一种办法是评估参数估计的稳定性。因而，模型拟合的这种敏感性剖析是在一系列不同的阈值范畴内进行的。

然而，抉择适合的阈值可能是应用局部持续时间序列执行极值剖析的最要害局部。Scarrott 和 MacDonald 在其 2012 年的文章 A review of 极值阈值预计和不确定性量化 (REVSTAT 10(1): 33-59) 中对阈值预计办法进行了很好的概述。

找到适合的阈值后，超过该阈值的极值子集将用于拟合狭义帕累托散布。

依据 Pickands-Balkema-de Haan 定理，超过阈值的值的散布能够近似为狭义帕累托散布。

以下代码显示了一个简短的理论示例，该示例应用extRemesR 中的包将狭义帕累托散布拟合到降水数据的工夫序列。样本数据集以 1981 年至 2014 年降水数据为特色。

# 均匀残余寿命图：lplot(prects)
# 均匀残余寿命图描述了阈值 (u) 与均匀过剩流量。# 这个想法是找到图简直是线性的最低阈值；# 思考到 95% 的相信范畴。# 在一系列阈值上拟合 GPD 模型
threplot(prxts)

fitrange (prts)
# 设置阈值
th <- 40

# 最大似然预计
pole <- fe
# 诊断图

rl_mle <- retvel(po)

# L- 矩预计
d(as.vector(prmethod = "moments")
# 诊断图
retel(pom)

# 重现程度图

# 应用 MLE 的重现程度图

loc <- as.numeric

# 带 LMOM 的重现程度图
plmom

这个例子很好地阐明了为什么基于 L 矩的办法可能优于最大似然预计，因为右图分明地证实了应用 L 矩预计时异样值的影响要小得多。除了这些经典预计办法之外，extRemes还提供狭义最大似然预计（GMLE，Martins 和 Stedinger，2000 年）和贝叶斯预计办法（Gilleland 和 Katz，2016 年）。

在最近对于分块最大值法和阈值超额法的文章中，咱们简略地假如了极值剖析的所有假如都失去了满足。然而，在解决环境变量时，状况很可能不是这样的。特地是平稳性的假如在很多状况下可能被违反。在寰球气候变化的背景下，气象或其余环境变量的工夫序列中很可能有一个相当大的趋势。当然，这种趋势必须被纳入剖析中，因为由此产生的回归程度随工夫而变动。

上面的代码显示了一个简短的理论例子，即应用 R 中的 extRemes 包对降水数据的工夫序列进行狭义帕累托散布的拟合。样本数据集是从 1971 年到 2013 年的降水数据，由奥地利水文部门通过 eHYD 提供。

# 推导出最大降水的 AMS 值
as <- apprly(preax)

# 查看 AMS 的平稳性。# 简略的线性模型

summary(lm)

p <- ggplot

拟合线性模型的后果和图给人的印象都表明年最大降水量有回升趋势。Mann-Kendall 趋势测验的后果是一个十分小的 P 值，证实了这一趋势。因而，必须进行趋势校对，以阐明随工夫变动的回归程度。

# 最大似然预计
d(method = "MLE")
# 重现程度图
plot(mend)

与后面的重现程度图（没有趋势）相比，这个重现程度图看起来有所不同。它显示的是 5 年和 100 年重现程度随工夫的变动。

最受欢迎的见解

1.R 语言 POT 超阈值模型和极值实践剖析

2.R 语言极值实践 EVT：基于 GPD 模型的火灾损失散布剖析

3.R 语言有极值（EVT）依赖构造的马尔可夫链 (MC) 对洪水极值剖析对洪水极值剖析 ”)

4.R 语言回归中的 hosmer-lemeshow 拟合优度测验

5.matlab 实现 MCMC 的马尔可夫切换 ARMA – GARCH 模型预计

6.R 语言区间数据回归剖析

7.R 语言 WALD 测验 VS 似然比测验

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI，NRI 指标

原文链接：http://tecdat.cn/?p=25348

分块极大值 Block-maxima

阈值超额法 threshold excess

狭义帕累托散布拟合