关于数据挖掘:极值分析分块极大值BLOCKMAXIMA阈值超额法广义帕累托分布GPD拟合降雨数据时间序列附代码数据

26次阅读

共计 3218 个字符，预计需要花费 9 分钟才能阅读完成。

咱们围绕极值剖析技术进行一些征询，帮忙客户解决独特的业务问题。
你们可能晓得，理论极值剖析有两种罕用办法：分块极大值 Block-maxima、阈值超额法 threshold excess （ 点击文末“浏览原文”获取残缺 代码数据）。

明天，咱们将别离介绍这两种办法。

分块样本极大值的极值实践(_Block_-_maxima_)。这种对（工夫）观测序列的极值建模的办法是基于在肯定的恒定长度序列内利用这些观测值的最大值或最小值。对于足够多的_n 个已建设块，这__n_个等长块的所得峰值可用于将适合的散布拟合到这些数据。尽管块大小基本上能够自由选择，但必须在偏差（小块）和方差（大块）之间进行衡量。通常，序列的长度通常抉择对应于某个相熟的时间段，在大多数状况下为一年。年度最大值（或最小值）的后果向量称为“年度最大值（最小值）系列”或简称为 AMS。

依据 Fisher-Tippett-Gnedenko 定理，块最大值的散布能够通过狭义极值散布来近似。

以下代码显示了一个简短的理论示例，该示例应用 R 将狭义极值散布拟合到降水数据的工夫序列。样本数据集蕴含 1971 年至 2014 年降水数据（ 查看文末理解数据获取形式 ）。

# 加载所需的包


# 获取数据
prexts <- rehyd

# 导出 AMS 以取得最大降水量
ams <- apprly

# GEV 散布的最大似然拟合
evd
# 诊断图
plot

rl_mle <- reevel
# 基于 L- 拟合 GEV 散布矩预计
# 诊断图
plot(fiom) 
# 重现程度：rm <- retvel
# 重现程度图

plot
loc <- as.numeric(retvel)

# 带 LMOM 图的重现程度

loc <- as.numeric(return.level)

在这种状况下，两个后果十分类似。在大多数状况下，L 矩预计比最大似然预计更持重。除了这些经典预计办法之外，还提供狭义最大似然预计（GMLE，Martins 和 Stedinger，2000 年）和贝叶斯预计办法（Gilleland 和 Katz，2016 年）。

点击题目查阅往期内容

R 语言 POT 超阈值模型和极值实践 EVT 剖析

左右滑动查看更多

01

02

03

04

咱们当初来看看阈值超额法。

依据 Coles (2001) 的说法，如果能够应用没有间隙的残缺（工夫）序列，则阈值办法比块最大值办法更无效，因为所有超过某个阈值的值都能够作为模型拟合的根底。在某些状况下，将散布拟合到块最大值数据是一种节约的办法，因为每个块只有一个值用于建模，而阈值过剩办法可能会提供更多对于极其值的信息。

然而，相似于块最大值办法中块大小的抉择，局部持续时间模型的阈值抉择也受到偏差（低阈值）和方差（高阈值）之间的衡量。

Coles (2001) 形容了两种不同的阈值抉择办法。首先，有一种基于均匀_残差_寿命图的探索性办法。该技术在理论模型拟合之前利用。其次，另一种办法是评估参数估计的稳定性。因而，模型拟合的这种敏感性剖析是在一系列不同的阈值范畴内进行的。

然而，抉择适合的阈值可能是应用局部持续时间序列执行极值剖析的最要害局部。Scarrott 和 MacDonald 在其 2012 年的文章。文献综述：极值阈值预计和不确定性量化 (REVSTAT 10(1): 33-59) 中对阈值预计办法进行了很好的概述。

找到适合的阈值后，超过该阈值的极值子集将用于拟合狭义帕累托散布。

依据 Pickands-Balkema-de Haan 定理，超过阈值的值的散布能够近似为狭义帕累托散布。

以下代码显示了一个简短的理论示例，该示例应用 R 将狭义帕累托散布拟合到降水数据的工夫序列。样本数据集以 1981 年至 2014 年降水数据为特色。

# 均匀残余寿命图：lplot(prects)
# 均匀残余寿命图描述了阈值 (u) 与均匀过剩流量。# 这个想法是找到图简直是线性的最低阈值；# 思考到 95% 的相信范畴。# 在一系列阈值上拟合 GPD 模型
threplot(prxts)

fitrange (prts)
# 设置阈值
th <- 40

# 最大似然预计
pole <- fe
# 诊断图

rl_mle <- retvel(po)

# L- 矩预计
d(as.vector(prmethod = "moments")
# 诊断图
retel(pom)

# 重现程度图

# 应用 MLE 的重现程度图

loc <- as.numeric

# 带 LMOM 的重现程度图
plmom

这个例子很好地阐明了为什么基于 L 矩的办法可能优于最大似然预计，因为右图分明地证实了应用 L 矩预计时异样值的影响要小得多。除了这些经典预计办法之外，还提供狭义最大似然预计（GMLE，Martins 和 Stedinger，2000 年）和贝叶斯预计办法（Gilleland 和 Katz，2016 年）。

在最近对于分块最大值法和阈值超额法的文章中，咱们简略地假如了极值剖析的所有假如都失去了满足。然而，在解决环境变量时，状况很可能不是这样的。特地是平稳性的假如在很多状况下可能被违反。在寰球气候变化的背景下，气象或其余环境变量的工夫序列中很可能有一个相当大的趋势。当然，这种趋势必须被纳入剖析中，因为由此产生的回归程度随工夫而变动。

上面的代码显示了一个简短的理论例子，即应用 R 对降水数据的工夫序列进行狭义帕累托散布的拟合。样本数据集是从 1971 年到 2013 年的降水数据。

# 推导出最大降水的 AMS 值
as <- apprly(preax)

# 查看 AMS 的平稳性。# 简略的线性模型

summary(lm)

p <- ggplot

拟合线性模型的后果和图给人的印象都表明年最大降水量有回升趋势。Mann-Kendall 趋势测验的后果是一个十分小的 P 值，证实了这一趋势。因而，必须进行趋势校对，以阐明随工夫变动的回归程度。

# 最大似然预计
d(method = "MLE")
# 重现程度图
plot(mend)

与后面的重现程度图（没有趋势）相比，这个重现程度图看起来有所不同。它显示的是 5 年和 100 年重现程度随工夫的变动。

数据获取

在上面公众号后盾回复 “降雨极值剖析 * 数据”*，可获取残缺数据。

本文摘选《 R 语言极值剖析：分块极大值 BLOCK-MAXIMA、阈值超额法 THRESHOLD EXCESS、狭义帕累托散布 GPD 拟合降雨数据工夫序列 》，点击“ 浏览原文”获取全文残缺材料。

点击题目查阅往期内容

极值实践 EVT、POT 超阈值、GARCH 模型剖析股票指数 VaR、条件 CVaR：多元化投资组合预测危险测度剖析
R 语言 POT 超阈值模型和极值实践 EVT 剖析
R 语言极值推断：狭义帕累托散布 GPD 应用极大似然预计、轮廓似然预计、Delta 法
R 语言极值实践 EVT：基于 GPD 模型的火灾损失散布剖析
R 语言有极值（EVT）依赖构造的马尔可夫链 (MC) 对洪水极值剖析
R 语言 POT 超阈值模型和极值实践 EVT 剖析
R 语言混合正态分布极大似然预计和 EM 算法
R 语言多项式线性模型：最大似然预计二次曲线
R 语言 Wald 测验 vs 似然比测验
R 语言 GARCH-DCC 模型和 DCC（MVT）建模预计
R 语言非参数办法：应用核回归平滑预计和 K -NN(K 近邻算法)分类预测心脏病数据
matlab 实现 MCMC 的马尔可夫转换 ARMA – GARCH 模型预计
R 语言基于 Bootstrap 的线性回归预测置信区间预计办法
R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归（BVAR）模型
Matlab 马尔可夫链蒙特卡罗法（MCMC）预计随机稳定率（SV，Stochastic Volatility）模型
Matlab 马尔可夫区制转换动静回归模型预计 GDP 增长率 R 语言极值推断：狭义帕累托散布 GPD 应用极大似然预计、轮廓似然预计、Delta 法