关于数据挖掘:R语言中的Stan概率编程MCMC采样的贝叶斯模型附代码数据

原文链接：http://tecdat.cn/?p=11161

最近咱们被客户要求撰写对于贝叶斯模型的钻研报告，包含一些图形和统计输入。

概率编程使咱们可能实现统计模型，而不用放心技术细节。这对于基于MCMC采样的贝叶斯模型特地有用

R语言中RStan贝叶斯层次模型剖析示例

stan简介

Stan是用于贝叶斯推理的C ++库。它基于No-U-Turn采样器（NUTS），该采样器用于依据用户指定的模型和数据预计后验散布。应用Stan执行剖析波及以下步骤：

应用Stan建模语言指定统计模型。通过专用的\_.stan\_ 文件实现此操作。
筹备要提供给模型的数据。
应用该stan 函数从后验散布中采样。
剖析后果。

在本文中，我将通过两个层次模型展现Stan的用法。我将应用第一个模型探讨Stan的基本功能，并应用第二个示例演示更高级的利用。

学校数据集

咱们要应用的第一个数据集是学校的数据集。该数据集掂量了教练打算对大学入学考试（在美国应用的学业能力测验（SAT））的影响。数据集如下所示：

正如咱们所看到的：对于八所学校中的大多数，短期教练打算确实进步了SAT分数。对于此数据集，咱们有趣味估算与每所学校相干的实在教练打算成果大小。咱们思考两种代替办法。首先，咱们能够假如所有学校彼此独立。然而，这将难以解释，因为学校的后验区间因为高标准差而在很大水平上重叠。第二，假如所有学校的实在成果都雷同，则能够汇总所有学校的数据。然而，这也是不合理的，因为该打算有针对学校的不同成果（例如，不同的老师和学生应该有不同的打算）。

因而，须要另一个模型。分层模型的长处是能够合并来自所有八所学校的信息，而无需假设它们具备独特的实在成果。咱们能够通过以下形式指定档次贝叶斯模型：

依据该模型，教练的成果遵循正态分布，其均值是实在成果θj，其标准偏差为σj（从数据中得悉）。真正的影响θj遵循参数μ和τ的正态分布。

定义Stan模型文件

在指定了要应用的模型之后，咱们当初能够探讨如何在Stan中指定此模型。在为上述模型定义Stan程序之前，让咱们看一下Stan建模语言的构造。

变量

在Stan中，能够通过以下形式定义变量：

int<lower=0> n; # 下界是0int<upper=5> n; # 下限是5int<lower=0,upper=5> n; # n 的范畴是 [0,5]

留神，如果先验已知变量，则应指定变量的高低边界。

多维数据能够通过方括号指定：

vector[n] numbers; // 长度为n的向量

real[n] numbers;  // 长度为n的浮点数组

matrix[n,n] matrix; // n乘n矩阵

程序

Stan中应用以下程序：

data：用于指定以贝叶斯规定为条件的数据
转换后的数据：用于预处理数据
参数（必填）：用于指定模型的参数
转换后的参数：用于计算后验之前的参数解决
模型（必填）：用于指定模型
生成数量：用于对后果进行后处理

点击题目查阅往期内容

MCMC的rstan贝叶斯回归模型和规范线性回归模型比拟

左右滑动查看更多

对于模型程序块，能够两种等效形式指定散布。第一个，应用以下统计符号：

y ~ normal(mu, sigma); # y 遵从正态分布

第二种办法应用基于对数概率密度函数（lpdf）的程序化表示法：

target += normal_lpdf(y | mu, sigma); # 减少正态对数密度

Stan反对大量的概率分布。通过Stan指定模型时，该 lookup 函数会派上用场：它提供从R函数到Stan函数的映射。思考以下示例：

library(rstan) # 加载stan包lookup(rnorm)

<!—->

##     StanFunction             Arguments ReturnType Page

## 355   normal_rng (real mu, real sigma)       real  494

在这里，咱们看到R中的rnorm 等价于 Stan的 normal_rng 。

模型

当初，咱们理解了Stan建模语言的基础知识，咱们能够定义模型，并将其存储在一个名为的文件中 schools.stan：

留神，θ 永远不会呈现在参数中。这是因为咱们没有显式地对θ进行建模，而是对η（各个学校的标准化成果）进行了建模。而后，依据μ，τ和η在\_变换后的参数\_局部结构θ 。此参数化使采样器更高效。

筹备数据进行建模

在拟合模型之前，咱们须要将输出数据编码为一个列表，其参数应与Stan模型的数据局部绝对应。对于学校数据，数据如下：

schools.data <- list(

  n = 8,

  y = c(28,  8, -3,  7, -1,  1, 18, 12),

  sigma = c(15, 10, 16, 11,  9, 11, 10, 18)

)

从后验散布抽样

咱们能够应用stan 函数从后验散布中采样，函数执行以下三个步骤：

它将模型标准转换为C ++代码。
它将C ++代码编译为共享对象。
它依据指定的模型，数据和设置从后验散布中采样。

如果 rstan_options(auto_write = TRUE)，则雷同模型的后续调用将比第一次调用快得多，因为该 stan 函数随后跳过了前两个步骤（转换和编译模型）。此外，咱们将设置要应用的内核数：

options(mc.cores = parallel::detectCores()) # 并行化rstan_options(auto_write = TRUE)  # 存储编译的stan模型

当初，咱们能够从后验中编译模型和样本。

模型解释

咱们将首先对模型进行根本解释，而后钻研MCMC程序。

根本模型解释

要应用拟合模型执行推断，咱们能够应用 print 函数。

print(fit1) # 可选参数：pars，probs

<!—->

## Inference for Stan model: schools.

## 4 chains, each with iter=2000; warmup=1000; thin=1; 

## post-warmup draws per chain=1000, total post-warmup draws=4000.## 

##            mean se_mean   sd   2.5%    25%    50%    75%  97.5% n_eff Rhat

## mu         7.67    0.15 5.14  -2.69   4.42   7.83  10.93  17.87  1185    1## tau        6.54    0.16 5.40   0.31   2.52   5.28   9.05  20.30  1157    1## eta[1]     0.42    0.01 0.92  -1.47  -0.18   0.44   1.03   2.18  4000    1## eta[2]     0.03    0.01 0.87  -1.74  -0.54   0.03   0.58   1.72  4000    1## eta[3]    -0.18    0.02 0.92  -1.95  -0.81  -0.20   0.45   1.65  3690    1## eta[4]    -0.03    0.01 0.92  -1.85  -0.64  -0.02   0.57   1.81  4000    1## eta[5]    -0.33    0.01 0.86  -2.05  -0.89  -0.34   0.22   1.43  3318    1## eta[6]    -0.20    0.01 0.87  -1.91  -0.80  -0.21   0.36   1.51  4000    1## eta[7]     0.37    0.02 0.87  -1.37  -0.23   0.37   0.96   2.02  3017    1## eta[8]     0.05    0.01 0.92  -1.77  -0.55   0.05   0.69   1.88  4000    1## theta[1]  11.39    0.15 8.09  -2.21   6.14  10.30  15.56  30.22  2759    1## theta[2]   7.92    0.10 6.25  -4.75   4.04   8.03  11.83  20.05  4000    1## theta[3]   6.22    0.14 7.83 -11.41   2.03   6.64  10.80  20.97  3043    1## theta[4]   7.58    0.10 6.54  -5.93   3.54   7.60  11.66  20.90  4000    1## theta[5]   5.14    0.10 6.30  -8.68   1.40   5.63   9.50  16.12  4000    1## theta[6]   6.08    0.10 6.62  -8.06   2.21   6.45  10.35  18.53  4000    1## theta[7]  10.60    0.11 6.70  -0.94   6.15  10.01  14.48  25.75  4000    1## theta[8]   8.19    0.14 8.18  -8.13   3.59   8.01  12.48  25.84  3361    1## lp__     -39.47    0.07 2.58 -45.21 -41.01 -39.28 -37.70 -34.99  1251    1## 

## Samples were drawn using NUTS(diag_e) at Thu Nov 29 11:17:50 2018.## For each parameter, n_eff is a crude measure of effective sample size,

## and Rhat is the potential scale reduction factor on split chains (at 

## convergence, Rhat=1).

在此，行名称示意预计的参数：mu是后验散布的平均值，而tau是其标准偏差。eta和theta的条目别离示意矢量η和θ的估计值。这些列示意计算值。百分比示意置信区间。例如，教练打算的总体成果的95％可信区间μ为[-1.27,18.26]。因为咱们不确定平均值，因而θj的95％置信区间也很宽。例如，对于第一所学校，95％置信区间为[−2.19,32.33]。

咱们能够应用以下plot 函数来可视化预计中的不确定性：

黑线示意95％的距离，而红线示意80％的距离。圆圈示意平均值的预计。

咱们能够应用以下extract 函数获取生成的样本：

# 获取样本samples <- extract(fit1, permuted = TRUE) # 每个参数1000个样本

MCMC诊断

通过绘制采样过程的轨迹图，咱们能够确定采样期间是否出了问题。例如，链条在一个地位停留的工夫过长或在一个方向上走了太多步，就会有问题。咱们能够应用traceplot 函数绘制模型中应用的四个链的轨迹：

# 诊断:

要从各个马尔可夫链中获取样本，咱们能够extract 再次应用函数：

##          parameters

## chains           mu       tau     eta[1]     eta[2]     eta[3]     eta[4]

##   chain:1  1.111120  2.729124 -0.1581242 -0.8498898  0.5025965 -1.9874554##   chain:2  3.633421  2.588945  1.2058772 -1.1173221  1.4830778  0.4838649##   chain:3 13.793056  3.144159  0.6023924 -1.1188243 -1.2393491 -0.6118482##   chain:4  3.673380 13.889267 -0.0869434  1.1900236 -0.0378830 -0.2687284##          parameters

## chains        eta[5]     eta[6]     eta[7]      eta[8]   theta[1]

##   chain:1  0.3367602 -1.1940843  0.5834020 -0.08371249  0.6795797##   chain:2 -1.8057252  0.7429594  0.9517675  0.55907356  6.7553706##   chain:3 -1.5867789  0.6334288 -0.4613463 -1.44533007 15.6870727##   chain:4  0.1028605  0.3481214  0.9264762  0.45331024  2.4657999##          parameters

## chains     theta[2] theta[3]    theta[4]  theta[5]  theta[6]  theta[7]

##   chain:1 -1.208335 2.482769 -4.31289292  2.030181 -2.147684  2.703297##   chain:2  0.740736 7.473028  4.88612054 -1.041502  5.556902  6.097494##   chain:3 10.275294 9.896345 11.86930758  8.803971 15.784656 12.342510##   chain:4 20.201935 3.147213 -0.05906019  5.102037  8.508530 16.541455##          parameters

## chains     theta[8]      lp__

##   chain:1 0.8826584 -41.21499##   chain:2 5.0808317 -41.17178##   chain:3 9.2487083 -40.35351##   chain:4 9.9695268 -36.34043

为了对采样过程进行更高级的剖析，咱们能够应用该 shinystan 软件包。应用该软件包，能够通过以下形式启动Shiny应用程序来剖析拟合模型：

library(shinystan)launch_shinystan(fit1)

档次回归

当初，咱们对Stan有了根本的理解，咱们能够深入研究更高级的应用程序：让咱们尝试一下档次回归。在惯例回归中，咱们对以下模式的关系进行建模

此示意假如所有样本都具备雷同的散布。如果只存在一组样本，那么咱们就会遇到问题，因为将疏忽组内和组之间的潜在差别。

另一种抉择是为每个组建设一个回归模型。然而，在这种状况下，预计单个模型时，小样本量会带来问题。

档次回归是两个极其之间的折衷。该模型假如组是类似的，但存在差别。

假如每个样本都属于K组之一。而后，档次回归指定如下：

其中Yk是第k组的后果，αk是截距，Xk是特色，β（k）示意权重。层次模型不同于其中Yk别离拟合每个组的模型，因为假设参数αk和β（k）源自独特的散布。

数据集

分层回归的经典示例是老鼠数据集。该数据集蕴含5周内测得的鼠体重。让咱们加载数据：

##   day8 day15 day22 day29 day36

## 1  151   199   246   283   320## 2  145   199   249   293   354## 3  147   214   263   312   328## 4  155   200   237   272   297## 5  135   188   230   280   323## 6  159   210   252   298   331

让咱们考察数据：

library(ggplot2)ggplot(ddf, aes(x = variable, y = value, group = Group)) + geom_line() + geom_point()

数据显示线性增长趋势对于不同的大鼠十分类似。然而，咱们还看到，大鼠的初始体重不同，须要不同的截距，并且成长速度也须要不同的斜率。因而，分层模型仿佛是适当的。

档次回归模型的标准

该模型能够指定如下：

第i个大鼠的截距由αi示意，斜率由βi示意。留神，测量工夫的核心是x = 22，它是工夫序列数据的中值测量值（第22天）。

当初，咱们能够指定模型并将其存储在名为 rats.stan的文件中：

请留神，模型代码估算的是方差（ sigmasq 变量）而不是标准差。

材料筹备

为了筹备模型数据，咱们首先将测量点提取为数值，而后将所有内容编码为列表构造：

data <- list(N = nrow(df), T = ncol(df), x = days,

                 y = df, xbar = median(days))

拟合回归模型

当初，咱们能够为老鼠体重数据集拟合贝叶斯档次回归模型：

# 模型蕴含截距（alpha）和斜率（beta）的预计

档次回归模型的预测

在确定了每只大鼠的α和β之后，咱们当初能够预计任意工夫点单个大鼠的体重。在这里，咱们寻找从第0天到第100天的大鼠体重。

ggplot(pred.df[pred.df$Rat %in% sel.rats, ], 

       aes(x = Day, y = Weight, group = Rat, 



    geom_line()  +

与原始数据相比，该模型的预计是平滑的，因为每条曲线都遵循线性模型。钻研最初一个图中所示的置信区间，咱们能够看到方差预计是正当的。咱们对采样时（第8至36天）的老鼠体重充满信心，然而随着来到采样区域，不确定性会减少。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R语言中的Stan概率编程MCMC采样的贝叶斯模型》。

点击题目查阅往期内容

R语言贝叶斯MCMC：用rstan建设线性回归模型剖析汽车数据和可视化诊断\
【视频】马尔可夫链蒙特卡罗办法MCMC原理与R语言实现|数据分享\
R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样\
R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器预计变点指数分布剖析泊松过程车站等待时间\
R语言马尔可夫MCMC中的METROPOLIS HASTINGS，MH算法抽样（采样）法可视化实例\
python贝叶斯随机过程：马尔可夫链Markov-Chain，MC和Metropolis-Hastings，MH采样算法可视化\
Python贝叶斯推断Metropolis-Hastings（M-H）MCMC采样算法的实现\
Metropolis Hastings采样和贝叶斯泊松回归Poisson模型\
Matlab用BUGS马尔可夫区制转换Markov switching随机稳定率模型、序列蒙特卡罗SMC、M H采样剖析工夫序列R语言RSTAN MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型剖析职业声望数据\
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机稳定率SV模型、粒子滤波、Metropolis Hasting采样工夫序列剖析\
R语言Metropolis Hastings采样和贝叶斯泊松回归Poisson模型\
R语言贝叶斯MCMC：用rstan建设线性回归模型剖析汽车数据和可视化诊断\
R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例\
R语言贝叶斯Poisson泊松-正态分布模型剖析职业足球比赛进球数\
R语言用Rcpp减速Metropolis-Hastings抽样预计贝叶斯逻辑回归模型的参数\
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病\
R语言中贝叶斯网络（BN）、动静贝叶斯网络、线性模型剖析错颌畸形数据\
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归\
Python贝叶斯回归剖析住房累赘能力数据集\
R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归剖析\
Python用PyMC3实现贝叶斯线性回归模型\
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型\
R语言Gibbs抽样的贝叶斯简略线性回归仿真剖析\
R语言和STAN,JAGS：用RSTAN,RJAG建设贝叶斯多元线性回归预测选举数据\
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研\
R语言贝叶斯线性回归和多元线性回归构建工资预测模型\
R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例\
R语言stan进行基于贝叶斯推断的回归模型\
R语言中RStan贝叶斯层次模型剖析示例\
R语言应用Metropolis-Hastings采样算法自适应贝叶斯预计与可视化\
R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型\
WinBUGS对多元随机稳定率模型：贝叶斯预计与模型比拟\
R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样\
R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例\
R语言应用Metropolis-Hastings采样算法自适应贝叶斯预计与可视化\
视频：R语言中的Stan概率编程MCMC采样的贝叶斯模型\
R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯预计

关于数据挖掘:R语言中的Stan概率编程MCMC采样的贝叶斯模型附代码数据

原文链接：http://tecdat.cn/?p=11161

stan简介

学校数据集

定义Stan模型文件

变量

程序

模型

筹备数据进行建模

从后验散布抽样

模型解释

根本模型解释

MCMC诊断

档次回归

数据集

档次回归模型的标准

材料筹备

拟合回归模型

档次回归模型的预测

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言中的Stan概率编程MCMC采样的贝叶斯模型附代码数据

原文链接：http://tecdat.cn/?p=11161

stan简介

学校数据集

定义Stan模型文件

变量

程序

模型

筹备数据进行建模

从后验散布抽样

模型解释

根本模型解释

MCMC诊断

档次回归

数据集

档次回归模型的标准

材料筹备

拟合回归模型

档次回归模型的预测

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复